Os modelos Frontier estão falhando em uma em cada três tentativas de produção – e ficando mais difíceis de auditar

Os agentes de IA agora estão incorporados em fluxos de trabalho empresariais reais e ainda falham em aproximadamente uma em cada três tentativas em benchmarks estruturados. Que lacuna entre capacidade e confiabilidade é o desafio operacional definidor para os líderes de TI em 2026, de acordo com o nono relatório anual do Índice de IA da Stanford HAI.

Esse desempenho irregular e imprevisível é o que o Índice AI chama de "fronteira irregular," um termo cunhado pelo pesquisador de IA Ethan Mollick para descrever o limite onde a IA se destaca e falha repentinamente.

“Os modelos de IA podem ganhar uma medalha de ouro na Olimpíada Internacional de Matemática”, apontam os pesquisadores do Stanford HAI, “mas ainda não conseguem dizer o tempo com segurança”.

Como os modelos avançaram em 2025

A adoção da IA empresarial atingiu 88%. Realizações notáveis em 2025 e início de 2026:

Os modelos Frontier melhoraram 30% em apenas um ano O Último Exame da Humanidade (HLE), que inclui 2.500 questões em matemática, ciências naturais, línguas antigas e outros subcampos especializados. O HLE foi construído para ser difícil para a IA e favorável para especialistas humanos.
Os modelos líderes pontuaram acima de 87% no MMLU-Pro, que testa o raciocínio em várias etapas com base em 12.000 perguntas revisadas por humanos em mais de uma dúzia de disciplinas. Isto ilustra “quão competitiva a fronteira se tornou em tarefas de conhecimento amplo”, observam os pesquisadores do Stanford HAI.
Os principais modelos, incluindo Claude Opus 4.5, GPT-5.2 e Qwen3.5, pontuaram entre 62,9% e 70,2% no banco τ. O benchmark testa agentes em tarefas do mundo real em domínios realistas que envolvem bate-papo com um usuário e chamada de ferramentas externas ou APIs.
A precisão do modelo no GAIA, que avalia assistentes gerais de IA, aumentou de cerca de 20% para 74,5%.
O desempenho dos agentes no SWE-bench Verified aumentou de 60% para quase 100% em apenas um ano. O benchmark avalia modelos quanto à sua capacidade de resolver problemas de software do mundo real.
As taxas de sucesso no WebArena aumentaram de 15% em 2023 para 74,3% no início de 2026. Este benchmark apresenta um ambiente web realista para avaliar agentes autônomos de IA, encarregando-os de recuperação de informações, navegação no site e configuração de conteúdo.
O desempenho do agente progrediu de 17% em 2024 para cerca de 65% no início de 2026 no banco MLE, que avalia capacidades de engenharia de aprendizado de máquina (ML).

Os agentes de IA estão demonstrando ganhos de capacidade em segurança cibernética. Por exemplo, os modelos de fronteira resolveram 93% dos problemas no Cybench, um benchmark que inclui 40 tarefas de nível profissional em seis categorias de captura da bandeira, incluindo criptografia, segurança web, engenharia reversa, análise forense e exploração.

Isto é comparado com 15% em 2024 e representa a “taxa de melhoria mais acentuada”, indicando que as tarefas de segurança cibernética são “uma boa opção para as capacidades atuais dos agentes”.

A geração de vídeo também evoluiu significativamente no último ano; os modelos agora podem capturar como os objetos se comportam. Por exemplo, o Veo 3 do Google DeepMind foi testado em mais de 18.000 vídeos gerados e demonstrou a capacidade de simular flutuabilidade e resolver labirintos sem ter sido treinado nessas tarefas.

“Os modelos de geração de vídeo não produzem mais apenas conteúdo de aparência realista”, escrevem os pesquisadores. “Alguns estão começando a aprender como o mundo físico realmente funciona.”

No geral, a IA está sendo usada em diversas áreas empresariais – gestão do conhecimento, engenharia de software e TI, marketing e vendas – e se expandindo para domínios especializados como impostos, processamento de hipotecas, finanças corporativas e raciocínio jurídico, onde a precisão varia de 60 a 90%.

“A capacidade da IA não está estagnando”, afirma Stanford HAI. “Está acelerando e alcançando mais pessoas do que nunca.”

A capacidade da IA aumenta, mas a confiabilidade fica aquém

Os modelos multimodais agora atendem ou excedem as linhas de base humanas em questões científicas de nível de doutorado, raciocínio multimodal e matemática de competição. Por exemplo, Gemini Deep Think ganhou uma medalha de ouro na Olimpíada Internacional de Matemática (IMO) de 2025, resolvendo cinco dos seis problemas de ponta a ponta em linguagem natural dentro do limite de tempo de 4,5 horas – uma melhoria notável em relação à pontuação de nível prata em 2024.

No entanto, estes mesmos sistemas de IA ainda falham em aproximadamente uma em cada três tentativas e têm problemas com tarefas básicas de percepção, de acordo com o Stanford HAI. No ClockBench – um teste que abrange 180 designs de relógios e 720 perguntas – o Gemini Deep Think alcançou apenas 50,1% de precisão, em comparação com cerca de 90% para humanos. GPT-4.5 High atingiu uma pontuação quase idêntica de 50,6%.

“Muitos modelos multimodais ainda lutam com algo que a maioria dos humanos considera rotineiro: contar as horas”, aponta o relatório Stanford HAI. A tarefa aparentemente simples combina percepção visual com aritmética simples, identificação dos ponteiros do relógio e suas posições e conversão destes em um valor de tempo. Em última análise, os erros em qualquer uma dessas etapas podem se espalhar, levando a resultados incorretos, segundo os pesquisadores.

Na análise, foram apresentados aos modelos uma variedade de estilos de relógios: analógicos padrão, relógios sem ponteiro de segundos, aqueles com setas como ponteiros, outros com mostradores pretos ou algarismos romanos. Mas mesmo após o ajuste fino de 5.000 imagens sintéticas, os modelos melhoraram apenas em formatos familiares e não conseguiram generalizar para variações do mundo real (como mostradores distorcidos ou ponteiros mais finos).

Os investigadores extrapolaram que, quando os modelos confundiam os ponteiros das horas e dos minutos, a sua capacidade de interpretar a direção deteriorava-se, sugerindo que o desafio reside não apenas nos dados, mas na integração de múltiplas pistas visuais.

“Mesmo que os modelos diminuam a lacuna com os especialistas humanos em tarefas que exigem muito conhecimento, este tipo de raciocínio visual continua a ser um desafio persistente”, observa Stanford HAI.

A alucinação e o raciocínio em várias etapas continuam a ser lacunas importantes

Mesmo que os modelos continuem a acelerar o seu raciocínio, as alucinações continuam a ser uma grande preocupação.

Num benchmark, por exemplo, as taxas de alucinação em 26 modelos líderes variaram entre 22% e 94%. A precisão de alguns modelos caiu drasticamente quando examinada – por exemplo, a precisão do GPT-4o caiu de 98,2% para 64,4% e o DeepSeek R1 despencou de mais de 90% para 14,4%.

Por outro lado, Grok 4.20 Beta, Claude 4.5 Haiku e MiMo-V2-Pro apresentaram as taxas mais baixas.

Além disso, os modelos continuam a ter dificuldades com fluxos de trabalho de várias etapas, mesmo quando recebem mais tarefas. Por exemplo, no benchmark τ-bench – que avalia o uso de ferramentas e o raciocínio multivoltas – nenhum modelo excedeu 71%, sugerindo que “gerenciar conversas multivoltas enquanto se utiliza corretamente as ferramentas e segue as restrições políticas continua difícil mesmo para modelos de fronteira”, de acordo com o relatório Stanford HAI.

Os modelos estão se tornando opacos

Os modelos líderes são agora “quase indistinguíveis” uns dos outros no que diz respeito ao desempenho, observa o relatório Stanford HAI. Os modelos abertos estão mais competitivos do que nunca, mas estão convergindo.

Como a capacidade não é mais um “diferenciador claro”, a pressão competitiva está mudando em direção ao custo, à confiabilidade e à utilidade no mundo real.

Os laboratórios fronteiriços estão divulgando menos informações sobre seus modelos, os métodos de avaliação estão rapidamente perdendo relevância e os testes independentes nem sempre conseguem corroborar as métricas relatadas pelos desenvolvedores.

Como salienta Stanford HAI: “Os sistemas mais capazes são agora os menos transparentes”.

Código de treinamento, contagens de parâmetros, tamanhos de conjuntos de dados e durações são frequentemente retidos – por empresas como OpenAI, Anthropic e Google. E a transparência está a diminuir de forma mais ampla: em 2025, 80 dos 95 modelos foram lançados sem código de formação correspondente, enquanto apenas quatro tornaram o seu código totalmente open source.

Além disso, depois de aumentar entre 2023 e 2024, as pontuações no Índice de transparência do modelo básico – que classifica os principais desenvolvedores de fundações em 100 indicadores de transparência – caíram desde então. A pontuação média agora é de 40, representando uma queda de 17 pontos.

“Persistem grandes lacunas na divulgação de dados de treinamento, recursos de computação e impacto pós-implantação”, de acordo com o relatório.

O benchmarking de IA está cada vez mais difícil – e menos confiável

Os parâmetros de referência utilizados para medir o progresso da IA enfrentam problemas crescentes de fiabilidade, com taxas de erro que chegam a 42% em avaliações amplamente utilizadas. “A IA está sendo testada de forma mais ambiciosa em termos de raciocínio, segurança e execução de tarefas no mundo real”, observa o relatório de Stanford, mas “essas medições são cada vez mais difíceis de confiar”.

Os principais desafios incluem:

Relatórios “esparsos e decrescentes” sobre preconceitos de desenvolvedores
Contaminação de benchmark, ou quando modelos são expostos a dados de teste; isso pode levar a pontuações “falsamente inflacionadas”
Discrepâncias entre os resultados relatados pelo desenvolvedor e os testes independentes
Avaliações “mal construídas” sem documentação, detalhes sobre significância estatística e scripts reproduzíveis
“Crescente opacidade e solicitações fora do padrão” que tornam as comparações entre modelos pouco confiáveis

“Mesmo quando as pontuações dos benchmarks são tecnicamente válidas, um forte desempenho dos benchmarks nem sempre se traduz em utilidade no mundo real”, de acordo com o relatório. Além disso, “a capacidade da IA está ultrapassando os parâmetros de referência concebidos para medi-la”.

Isto está a levar à “saturação de benchmark”, onde os modelos alcançam pontuações tão elevadas que os testes já não conseguem diferenciá-los. Formas de inteligência mais complexas e interativas estão se tornando cada vez mais difíceis de avaliar. Alguns pedem avaliações que meçam a colaboração entre humanos e IA, em vez do desempenho da IA isoladamente, mas esta técnica está no início do desenvolvimento.

“As avaliações que deveriam ser desafiadoras durante anos ficam saturadas em meses, comprimindo a janela em que os benchmarks permanecem úteis para acompanhar o progresso”, de acordo com Stanford HAI.

Estamos em "dados de pico"?

À medida que os construtores avançam para uma inferência com uso mais intensivo de dados, há uma preocupação crescente com os gargalos dos dados e com o dimensionamento da sustentabilidade. Os principais pesquisadores alertam que o conjunto disponível de textos humanos e dados da web de alta qualidade foi “esgotado” – um estado conhecido como “dados de pico”.

Abordagens híbridas que combinam dados reais e sintéticos podem “acelerar significativamente o treinamento” – às vezes por um fator de 5 a 10 – e modelos menores treinados em dados puramente sintéticos têm se mostrado promissores para tarefas estritamente definidas, como classificação ou geração de código, de acordo com Stanford HAI.

Os dados gerados sinteticamente podem ser eficazes para melhorar o desempenho do modelo em ambientes pós-treinamento, incluindo ajuste fino, alinhamento, ajuste de instruções e aprendizagem por reforço (RL), observa o relatório. No entanto, “esses ganhos não foram generalizados para grandes modelos de linguagem de uso geral”.

Em vez de dimensionar os dados “indiscriminadamente”, os pesquisadores estão recorrendo à remoção, curadoria e refinamento de insumos, e estão melhorando o desempenho limpando rótulos, desduplicando amostras e construindo conjuntos de dados gerais de maior qualidade.

“As discussões sobre a disponibilidade de dados muitas vezes ignoram uma mudança importante na investigação recente sobre IA”, de acordo com o relatório. “Os ganhos de desempenho são cada vez mais impulsionados pela melhoria da qualidade dos conjuntos de dados existentes, e não pela aquisição de mais.”

A IA responsável está ficando para trás

Embora a infraestrutura para uma IA responsável esteja a crescer, o progresso tem sido “desigual” e não consegue acompanhar os rápidos ganhos de capacidade, de acordo com Stanford HAI.

Embora quase todos os principais desenvolvedores de modelos de IA de ponta relatem resultados em benchmarks de capacidade, os relatórios correspondentes sobre segurança e responsabilidade são inconsistentes e “irregulares”.

Os incidentes documentados de IA aumentaram significativamente ano após ano – 362 em 2025 em comparação com 233 em 2024. E, embora vários modelos de fronteira tenham recebido classificações de segurança “Muito Bom” ou “Bom” sob uso padrão (de acordo com o Referência AILuminateque avalia a IA generativa em 12 categorias de “perigo”), o desempenho de segurança caiu em todos os modelos quando testado contra tentativas de jailbreak usando avisos adversários.

“Os modelos de IA têm um bom desempenho em testes de segurança em condições normais, mas as suas defesas enfraquecem sob ataques deliberados”, observa Stanford HAI.

Somando-se a este desafio, os construtores relataram que melhorar uma dimensão, como a segurança, pode degradar outra, como a precisão. “A infraestrutura para uma IA responsável está a crescer, mas o progresso tem sido desigual e não acompanha a velocidade da implementação da IA”, segundo investigadores de Stanford.

Os dados de Stanford deixam uma coisa clara: a lacuna que importa em 2026 não é entre a IA e o desempenho humano. Está entre o que a IA pode fazer em uma demonstração e o que ela faz de forma confiável na produção. Neste momento – com menos transparência dos laboratórios e benchmarks que saturam antes de serem úteis – essa lacuna é mais difícil de medir do que nunca.

What's Hot

Este telefone de médio porte fica grande em câmeras com extensor de zoom

O Tab A1 Plus da TCL é a cura que precisávamos para o aumento dos preços dos tablets

Você não vai acreditar quanta potência o Cubi NUC AI+ 3MG da MSI embala em um chassi de 0,5 litro

Os lares do Reino Unido finalmente obtêm uma nova maneira inteligente de assistir TV enquanto Samsung e LG rivalizam

Os rivais da Sky tocam campainhas com uma maneira surpreendentemente barata de monitorar sua casa

Esqueça sua TV 4K, Sony confirma atualização de tela revolucionária

Usuários de PC com Windows colocados em alerta vermelho e orientados a ficar atentos a atualizações urgentes

Argos oferece óculos Ray-Ban baratos, mas encontramos um desconto ainda maior

Este telefone de médio porte fica grande em câmeras com extensor de zoom

O Tab A1 Plus da TCL é a cura que precisávamos para o aumento dos preços dos tablets

O novo Razr Fold da Motorola chegará em breve e agora sabemos quando

DJI apresenta novo recurso OSMO Pocket 4 que irá trazer à tona o seu cineasta interior

Gemini avança ainda mais no território da Apple com um novo aplicativo para Mac

Um guia para financiamento de pequenas empresas: empréstimos, elegibilidade e aplicações

Como lidar com avaliações falsas

Um guia para obter um empréstimo para pequenas empresas

Empregador registrado – tudo o que você precisa saber

Software de despesas para pequenas empresas do Reino Unido

O melhor front-end de emulação do Android acaba de receber uma grande atualização

O Galaxy Z TriFold está pronto para o mercado dos EUA com essas ofertas

Os telefones Samsung em um grande mercado receberão muitos utilitários de sistema

O Google Chrome é o pior navegador para quem não é técnico – eis o porquê

O Galaxy Z Flip 8 poderia usar um chip especial da Qualcomm com um pouco de molho extra da Samsung

Os modelos Frontier estão falhando em uma em cada três tentativas de produção – e ficando mais difíceis de auditar

O próximo gargalo da IA não são os modelos – é se os agentes podem pensar juntos

Testamos o aplicativo de desktop Claude Code redesenhado da Anthropic e ‘Rotinas’ – aqui está o que as empresas devem saber

Gemini avança ainda mais no território da Apple com um novo aplicativo para Mac

Este telefone de médio porte fica grande em câmeras com extensor de zoom

O Tab A1 Plus da TCL é a cura que precisávamos para o aumento dos preços dos tablets

Você não vai acreditar quanta potência o Cubi NUC AI+ 3MG da MSI embala em um chassi de 0,5 litro

Este telefone de médio porte fica grande em câmeras com extensor de zoom

O Tab A1 Plus da TCL é a cura que precisávamos para o aumento dos preços dos tablets

Você não vai acreditar quanta potência o Cubi NUC AI+ 3MG da MSI embala em um chassi de 0,5 litro

What's Hot

Os modelos Frontier estão falhando em uma em cada três tentativas de produção – e ficando mais difíceis de auditar

Como os modelos avançaram em 2025

A capacidade da IA ​​aumenta, mas a confiabilidade fica aquém

A alucinação e o raciocínio em várias etapas continuam a ser lacunas importantes

Os modelos estão se tornando opacos

O benchmarking de IA está cada vez mais difícil – e menos confiável

Estamos em "dados de pico"?

A IA responsável está ficando para trás

Related Posts

Subscribe to Updates

A capacidade da IA aumenta, mas a confiabilidade fica aquém