Close Menu
    What's Hot

    Eu dirigi o novo Porsche Cayenne e isso vai mudar sua opinião sobre EVs

    março 27, 2026

    Samsung está trabalhando no suporte raise to talk para seu assistente virtual

    março 27, 2026

    O primeiro dominó? OnePlus pode estar fechando vendas offline em mercados importantes.

    março 27, 2026
    Facebook X (Twitter) Instagram
    Rafas Geek
    • Tech

      Eu dirigi o novo Porsche Cayenne e isso vai mudar sua opinião sobre EVs

      março 27, 2026

      Esqueça o Ring, a Amazon oferece uma maneira mais barata de proteger sua casa

      março 27, 2026

      Os compradores da Argos correm para obter a atualização definitiva do Galaxy Watch usando um código simples

      março 27, 2026

      O WhatsApp finalmente adiciona um recurso revolucionário pelo qual os usuários estão clamando

      março 26, 2026

      Samsung confirma grande atualização gratuita do Android se o seu telefone Galaxy estiver nesta lista

      março 26, 2026
    • News

      Samsung está trabalhando no suporte raise to talk para seu assistente virtual

      março 27, 2026

      O primeiro dominó? OnePlus pode estar fechando vendas offline em mercados importantes.

      março 27, 2026

      A Netflix está chegando ao Discord com este recurso de jogo social

      março 27, 2026

      Bom ou ruim? Os usuários OnePlus agora podem usar centros de serviço OPPO nos principais mercados

      março 27, 2026

      Android 17 Beta 3 traz uma atualização significativa para usuários de aparelhos auditivos

      março 27, 2026
    • Negócios

      Aceitar pagamentos online para empresas de comércio eletrônico

      março 27, 2026

      Estabelecendo limites e cronogramas fiscais digitais

      março 26, 2026

      Regras de atraso de pagamento incluirão juros obrigatórios e limite de pagamento de 60 dias

      março 25, 2026

      Melhores ofertas para criação de software de contabilidade fiscal digital

      março 23, 2026

      Por que ‘meu negócio é minha aposentadoria’ pode ser o plano mais arriscado de todos

      março 19, 2026
    • Mundo

      O Galaxy Z TriFold está pronto para o mercado dos EUA com essas ofertas

      dezembro 2, 2025

      Os telefones Samsung em um grande mercado receberão muitos utilitários de sistema

      novembro 14, 2025

      O Google Chrome é o pior navegador para quem não é técnico – eis o porquê

      outubro 25, 2025

      O Galaxy Z Flip 8 poderia usar um chip especial da Qualcomm com um pouco de molho extra da Samsung

      outubro 10, 2025

      Um dos melhores telefones de câmera de 2025 é obter uma sequência

      setembro 2, 2025
    • Contato
    Facebook X (Twitter) Instagram
    Rafas Geek
    Data

    Scale AI lança Voice Showdown, o primeiro benchmark do mundo real para IA de voz – e os resultados são humilhantes para alguns modelos top

    rafasgeekBy rafasgeekmarço 20, 2026Nenhum comentário11 Mins Read
    Facebook Twitter Pinterest LinkedIn Tumblr Email
    Share
    Facebook Twitter LinkedIn Pinterest Email





    A IA de voz está se movendo mais rápido do que as ferramentas que usamos para medi-la. Todos os principais laboratórios de IA – OpenAI, Google DeepMind, Anthropic, xAI – estão correndo para lançar modelos de voz capazes de conversas naturais e em tempo real.

    Mas os parâmetros de referência utilizados para avaliar esses modelos ainda funcionam, em grande parte, com discurso sintético, comandos apenas em inglês e conjuntos de testes programados que têm pouca semelhança com a forma como as pessoas realmente falam.

    Escalas de IAa inicialização de anotação de grandes dados cujo fundador foi contratado pela Meta no ano passado para liderar seu Laboratório de Superinteligênciacontinua forte e enfrentando o problema de frente: hoje lança Confronto de Vozo que chama de primeira arena global baseada em preferências projetada para avaliar a IA de voz através das lentes da interação humana real.

    Este produto oferece um valor estratégico único aos usuários: acesso gratuito aos principais modelos de fronteira do mundo. Por meio da plataforma ChatLab da Scale, os usuários podem interagir com modelos de alto nível – que normalmente exigem várias assinaturas de US$ 20 por mês – sem nenhum custo. Em troca, os usuários participam ocasionalmente de encontros cegos e frente a frente. "batalhas" para escolher qual dos dois principais modelos de voz anônimos oferece uma melhor experiência, fornecendo dados para o quadro de classificação de modelos de IA de voz mais autênticos e de preferência humana do setor.

    "Voice AI é realmente a fronteira mais rápida em IA no momento," disse Janie Gu, gerente de produto da Showdown at Scale AI. "Mas a forma como avaliamos os modelos de voz não acompanhou."

    Os resultados, extraídos de milhares de conversas espontâneas por voz em mais de 60 idiomas, revelam lacunas de capacidade que outros benchmarks têm consistentemente ignorado.

    Como funciona o Voice Showdown do Scale

    Voice Showdown é construído no ChatLab, a plataforma de bate-papo independente de modelo da Scale, onde os usuários podem interagir livremente com qualquer modelo de IA de fronteira que escolherem – gratuitamente – em um único aplicativo. A plataforma está disponível para a comunidade global da Scale de mais de 500.000 anotadores, dos quais cerca de 300.000 enviaram pelo menos um prompt. A Scale está abrindo a plataforma para uma lista de espera pública hoje.

    O mecanismo de avaliação é elegante em sua simplicidade: enquanto um usuário está tendo uma conversa de voz natural com um modelo, o sistema ocasionalmente – em menos de 5% de todos os comandos de voz – apresenta uma comparação cega lado a lado. O mesmo prompt é enviado para um segundo modelo anônimo, e o usuário escolhe a resposta de sua preferência.

    Este design resolve três problemas que afetam os benchmarks de voz existentes.

    Primeiro, cada prompt vem da fala humana real – com sotaques, ruído de fundo, frases incompletas e preenchimento de conversação – em vez de áudio sintetizado gerado a partir de texto.

    Em segundo lugar, a plataforma abrange mais de 60 idiomas em 6 continentes, com mais de um terço das batalhas ocorrendo em idiomas diferentes do inglês, incluindo espanhol, árabe, japonês, português, hindi e francês.

    Terceiro, como as batalhas ocorrem nas conversas diárias reais dos usuários, 81% das solicitações são conversacionais ou abertas – perguntas sem uma única resposta correta. Isso exclui a pontuação automatizada e faz da preferência humana o único sinal credível.

    O Voice Showdown atualmente executa dois modos de avaliação: Ditar (os usuários falam, os modelos respondem com texto) e Fala para Fala, ou S2S (Fala para Fala, os usuários falam, os modelos respondem). Um terceiro modo – Full Duplex, que captura conversas interrompíveis em tempo real – está em desenvolvimento.

    Votação alinhada por incentivos

    Um detalhe de design diferencia o Voice Showdown do Chatbot Arena (LM Arena), o benchmark de texto com o qual ele mais se assemelha. Na LM Arena, os críticos notaram que os usuários às vezes dão votos descartáveis, com pouca participação no resultado. O Voice Showdown aborda isso diretamente: depois que um usuário vota no modelo de sua preferência, o aplicativo o alterna para esse modelo pelo resto da conversa. Se você votou no GPT-4o Audio em vez do Gemini, agora está falando com o GPT-4o Audio. Esse alinhamento das consequências com as preferências desencoraja o voto casual ou desonesto.

    O sistema também controla confusões que podem corromper as comparações: as respostas de ambos os modelos começam a ser transmitidas simultaneamente (eliminando o preconceito de velocidade), o género da voz é correspondido em ambas as opções (eliminando o preconceito de preferência de género) e nenhum dos modelos é identificado pelo nome durante a votação.

    O novo ranking de Voice AI ao qual todo tomador de decisão empresarial deve prestar atenção

    Voice Showdown é lançado com 11 modelos de fronteira avaliados em 52 pares modelo-voz em 18 de março de 2026. Nem todos os modelos suportam ambos os modos de avaliação – a tabela de classificação Dictate inclui 8 modelos, enquanto S2S inclui 6.

    Ditar placar (Speech-In, Text-Out)

    Nesse modo, os usuários fornecem um prompt falado e avaliam duas respostas de texto lado a lado. Aqui estão as pontuações básicas:

    1. Gêmeos 3 Pró (1073)

    2. Gêmeos 3 Flash (1068)

    3. Áudio GPT-4o (1019)

    4. Pergunta 3 Omni (1000)

    5. Voxtral Pequeno (925)

    6. Gema 3n (918)

    7. GPT em tempo real (875)

    8. Phi-4 Multimodal (729)

    Observação: Gemini 3 Pro e Gemini 3 Flash estão estatisticamente empatados no topo da classificação.

    Tabela de classificação de fala para fala (S2S)

    Neste modo, os usuários falam com o modelo e avaliam duas respostas de áudio concorrentes. Também linhas de base:

    1. Áudio Flash Gêmeos 2.5 (1060)

    2. Áudio GPT-4o (1059)

    3. Voz Grok (1024)

    4. Pergunta 3 Omni (1000)

    5. GPT em tempo real (962)

    6. GPT em tempo real 1.5 (920)

    Observação: Gemini 2.5 Flash Audio e GPT-4o Audio estão estatisticamente empatados no topo da classificação nas avaliações iniciais.

    As classificações do Dictate são lideradas pelo Gemini 3 Pro e Gemini 3 Flash do Google, que estão estatisticamente empatados em primeiro lugar, com pontuações Elo em torno de 1.043-1.044 após controles de estilo.

    GPT-4o Audio ocupa um claro terceiro lugar. Modelos de peso aberto, incluindo Gemma3n, Voxtral Small e Phi-4 Multimodal, trilham significativamente.

    As classificações de Speech-to-Speech (S2S) mostram uma corrida mais acirrada no topo, com Gemini 2.5 Flash Audio e GPT-4o Audio empatados estatisticamente em primeiro lugar nas classificações de base.

    Depois de ajustar o comprimento e a formatação da resposta – fatores que podem aumentar a qualidade percebida – o GPT-4o Audio sai na frente (1.102 Elo vs. 1.075 para Gemini 2.5 Flash Audio).

    Grok Voice salta para um segundo lugar em 1.093 sob controles de estilo, sugerindo que sua classificação bruta em 3º lugar subestima sua qualidade real de desempenho.

    Qwen 3 Omni, o modelo aberto da equipe Qwen do Alibaba, tem melhor desempenho em pura preferência do que sua popularidade sugere – ficando em quarto lugar em ambos os modos, à frente de vários nomes de maior perfil.

    "Quando as pessoas chegam, elas procuram os grandes nomes," Gu observou. "Mas, de preferência, modelos menos conhecidos como Qwen realmente estão na frente."

    Surpreso revelado por dados de preferências do mundo real

    Além das classificações, o valor real do Voice Showdown está no diagnóstico de falhas – e elas pintam um quadro mais complicado da IA ​​de voz do que a maioria das tabelas de classificação revela.

    A lacuna multilíngue é pior do que você pensa

    A robustez da linguagem é o maior diferenciador entre os modelos. No Dictate, os modelos Gemini 3 lideram essencialmente em todas as linguagens testadas.

    No S2S, o vencedor depende muito do idioma falado: GPT-4o Audio lidera em árabe e turco; Gemini 2.5 Flash Audio é mais forte em francês; Grok Voice é competitivo em japonês e português.

    Mas a descoberta mais alarmante é a frequência com que alguns modelos simplesmente param de responder na língua do usuário.

    GPT Realtime 1.5 – o mais novo modelo de voz em tempo real da OpenAI – responde em inglês a solicitações em idiomas diferentes do inglês cerca de 20% do tempo, mesmo em idiomas oficialmente suportados e com muitos recursos, como hindi, espanhol e turco.

    Seu antecessor, GPT Realtime, apresenta incompatibilidade em cerca de metade dessa taxa (~10%). Gemini 2.5 Flash Audio e GPT-4o Audio ficam em aproximadamente 7%.

    O fenômeno ocorre em ambas as direções: alguns modelos transportam o contexto não-inglês do início de uma conversa para um turno em inglês, ou simplesmente interpretam mal um prompt e geram uma resposta não relacionada no idioma totalmente errado.

    As palavras textuais do usuário na plataforma capturam a frustração sem rodeios: "Eu disse que tenho uma entrevista hoje com a Quest Management e em vez de responder, ela me deu informações sobre ‘Gerenciamento de Riscos’."

    "O GPT Realtime 1.5 achou que eu estava falando de forma incoerente e recomendou assistência de saúde mental, enquanto o Qwen 3 Omni identificou corretamente que eu estava falando um idioma local nigeriano."

    A razão pela qual os benchmarks existentes não percebem isso: eles são baseados em fala sintética otimizada para condições acústicas limpas e raramente são multilíngues. Alto-falantes reais em ambientes reais — com ruído de fundo, expressões curtas e sotaques regionais — prejudicam a compreensão da fala de maneiras que as condições do laboratório não prevêem.

    A seleção de voz é mais do que estética

    O Voice Showdown avalia os modelos não apenas no nível do modelo, mas também no nível da voz individual – e a variação no catálogo de voz de um único modelo é impressionante.

    Para um modelo não identificado no estudo, a voz com melhor desempenho ganhou 30 pontos percentuais mais frequentemente do que a voz com pior desempenho do mesmo modelo subjacente. Ambas as vozes compartilham o mesmo raciocínio e back-end de geração. A diferença está puramente na apresentação de áudio.

    As vozes de melhor desempenho tendem a ganhar ou perder na compreensão do áudio e na integridade do conteúdo – independentemente de o modelo ter ouvido você corretamente e respondido completamente. Mas a qualidade da fala continua a ser um factor decisivo ao nível da selecção da voz, particularmente quando os modelos são comparáveis. "A voz molda diretamente a forma como os usuários avaliam a interação," Gu disse.

    Modelos degradam na conversa

    A maioria dos benchmarks testa uma única curva. O Voice Showdown testa como os modelos se comportam em conversas prolongadas – e os resultados não são lisonjeiros.

    Na Curva 1, a qualidade do conteúdo é responsável por 23% das falhas do modelo. Na curva 11 e além, torna-se o principal modo de falha com 43%. A maioria dos modelos vê suas taxas de vitória diminuirem à medida que as conversas se estendem, lutando para manter a coerência entre múltiplas trocas.

    As variantes GPT Realtime são uma exceção, melhorando marginalmente em turnos posteriores – consistente com seus pontos fortes conhecidos em contextos mais longos e sua fraqueza documentada nas declarações breves e barulhentas que dominam as interações iniciais.

    A duração dos prompts mostra um padrão complementar: prompts curtos (menos de 10 segundos) são dominados por falhas de compreensão de áudio (38%), enquanto prompts longos (mais de 40 segundos) transferem a falha primária para a qualidade do conteúdo (31%). O áudio mais curto dá aos modelos menos contexto acústico para analisar; solicitações mais longas são compreendidas, mas mais difíceis de responder bem.

    Por que alguns modelos de IA de voz perdem

    Após cada comparação S2S, os usuários marcam por que preferiram uma resposta a outra em três eixos: compreensão de áudio, qualidade de conteúdo e saída de fala. As assinaturas de falha diferem significativamente por modelo.

    As perdas do Qwen 3 Omni concentram-se em torno da geração de fala – seu raciocínio é competitivo, mas os usuários ficam desanimados com o som. As perdas do GPT Realtime 1.5 são dominadas por falhas de compreensão de áudio (51%), consistente com seu comportamento de troca de idioma em prompts desafiadores. As falhas do Grok Voice são mais equilibradas em todos os três eixos, indicando nenhuma fraqueza dominante, mas também nenhuma força particular.

    O que vem a seguir

    A tabela de classificação atual cobre a interação por turnos – você fala, o modelo responde, repita. Mas as conversas de voz reais não funcionam dessa maneira. As pessoas interrompem, mudam de direção no meio da frase e conversam umas com as outras.

    Scale diz que a avaliação Full Duplex – projetada para capturar essas dinâmicas em tempo real por meio da preferência humana, em vez de cenários com script ou métricas automatizadas – chegará ao Showdown a seguir. Nenhum benchmark existente captura a interação full-duplex por meio de dados orgânicos de preferência humana.

    A tabela de classificação está ao vivo em scale.com/showdown. Uma lista de espera pública para ingressar no ChatLab e votar em comparações está aberta hoje, com os usuários recebendo acesso gratuito a modelos de voz de fronteira, incluindo GPT-4o, Gemini e Grok, em troca de votos de preferência ocasionais.



    alguns benchmark humilhantes lança modelos mundo para Primeiro real resultados são Scale Showdown Top Voice voz
    Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
    rafasgeek
    • Website

    Related Posts

    Eu dirigi o novo Porsche Cayenne e isso vai mudar sua opinião sobre EVs

    março 27, 2026

    Samsung está trabalhando no suporte raise to talk para seu assistente virtual

    março 27, 2026

    O primeiro dominó? OnePlus pode estar fechando vendas offline em mercados importantes.

    março 27, 2026

    Comments are closed.

    Economy News
    Featured Markets

    Eu dirigi o novo Porsche Cayenne e isso vai mudar sua opinião sobre EVs

    By rafasgeekmarço 27, 20260

    Há algo que o novo Cayenne Electric não possa fazer? Depois de submeter este último…

    Samsung está trabalhando no suporte raise to talk para seu assistente virtual

    março 27, 2026

    O primeiro dominó? OnePlus pode estar fechando vendas offline em mercados importantes.

    março 27, 2026
    Top Trending
    Featured Markets

    Eu dirigi o novo Porsche Cayenne e isso vai mudar sua opinião sobre EVs

    By rafasgeekmarço 27, 20260

    Há algo que o novo Cayenne Electric não possa fazer? Depois de…

    Authority Insights

    Samsung está trabalhando no suporte raise to talk para seu assistente virtual

    By rafasgeekmarço 27, 20260

    Joe Maring / Autoridade AndroidDR As primeiras versões vazadas do Samsung One…

    India

    O primeiro dominó? OnePlus pode estar fechando vendas offline em mercados importantes.

    By rafasgeekmarço 27, 20260

    OnePlus Índia acaba de anunciar que os proprietários de dispositivos poderão usar…

    Subscribe to News

    Receba as últimas notícias esportivas do NewsSite sobre o mundo, esportes e política.

    Advertisement

    Todos os dias, uma nova tecnologia é lançada, e eu Rafas Geek, estou aqui para divulgar para o mundo, o que à de novo!

    Siga-nos nas redes sociais:

    Facebook X (Twitter) Instagram YouTube

    Subscribe to Updates

    Receba as últimas notícias criativas do FooBar sobre arte, design e negócios.

    Facebook X (Twitter) Instagram Pinterest
    • Home
    • Tecnologia
    • Entretenimento
    • News
    © 2026 Rafas Geek - Tudo sobre tecnologia 👨🏻‍💻 Rafas Geek.

    Type above and press Enter to search. Press Esc to cancel.