Close Menu
    What's Hot

    Atualize sua criação de conteúdo com esta oferta DJI Mic 3!

    fevereiro 11, 2026

    A T-Mobile pode oferecer um Pixel 10 grátis se você estiver prestes a sair

    fevereiro 11, 2026

    Vazamento do OPPO Find X9 Ultra confirma enorme impacto na câmera

    fevereiro 11, 2026
    Facebook X (Twitter) Instagram
    Rafas Geek
    • Tech

      A maior atualização do Fitbit em anos finalmente chegando aos usuários do Reino Unido – lista completa de dispositivos

      fevereiro 11, 2026

      Sky revela uma nova maneira impressionante de transmitir TV e é mais barata do que você pensa

      fevereiro 11, 2026

      Seu telefone Samsung Galaxy terá uma aparência inferior nesta data, conforme novo lançamento confirmado

      fevereiro 11, 2026

      Virgin Media está oferecendo atualizações vitais de Wi-Fi gratuitas, como conseguir a sua

      fevereiro 11, 2026

      Milhões estão cometendo um erro arriscado de senha e os hackers estão adorando

      fevereiro 11, 2026
    • News

      Atualize sua criação de conteúdo com esta oferta DJI Mic 3!

      fevereiro 11, 2026

      A T-Mobile pode oferecer um Pixel 10 grátis se você estiver prestes a sair

      fevereiro 11, 2026

      Vazamento do OPPO Find X9 Ultra confirma enorme impacto na câmera

      fevereiro 11, 2026

      O vazamento do Galaxy S26 nos dá a visão mais clara de todos os ângulos

      fevereiro 11, 2026

      Google adia o lançamento planejado do Android 17 Beta 1 para hoje

      fevereiro 11, 2026
    • Negócios

      Lei dos Direitos Trabalhistas de 2025 e as mudanças para as quais você precisa se preparar

      fevereiro 10, 2026

      Lei dos Direitos Trabalhistas de 2025 e as mudanças para as quais você precisa se preparar

      fevereiro 10, 2026

      Como acertar

      fevereiro 9, 2026

      8 sistemas de pagamento para festivais, pop-ups e mercados de comida de rua

      fevereiro 9, 2026

      Como receber pagamentos como uma pequena empresa

      fevereiro 2, 2026
    • Mundo

      O Galaxy Z TriFold está pronto para o mercado dos EUA com essas ofertas

      dezembro 2, 2025

      Os telefones Samsung em um grande mercado receberão muitos utilitários de sistema

      novembro 14, 2025

      O Google Chrome é o pior navegador para quem não é técnico – eis o porquê

      outubro 25, 2025

      O Galaxy Z Flip 8 poderia usar um chip especial da Qualcomm com um pouco de molho extra da Samsung

      outubro 10, 2025

      Um dos melhores telefones de câmera de 2025 é obter uma sequência

      setembro 2, 2025
    • Contato
    Facebook X (Twitter) Instagram
    Rafas Geek
    AI

    O teto de factualidade de 70%: por que o novo benchmark ‘FACTS’ do Google é um alerta para a IA empresarial

    rafasgeekBy rafasgeekdezembro 10, 2025Nenhum comentário5 Mins Read
    Facebook Twitter Pinterest LinkedIn Tumblr Email
    Share
    Facebook Twitter LinkedIn Pinterest Email





    Não faltam benchmarks de IA generativos projetados para medir o desempenho e a precisão de um determinado modelo na conclusão de várias tarefas empresariais úteis – desde codificação para instrução seguinte para navegação na web agente e uso de ferramenta. Mas muitos desses benchmarks têm uma grande falha: medem a capacidade da IA ​​de resolver problemas e solicitações específicas, e não como factual o modelo está nos seus resultados – quão bem ele gera informações objetivamente corretas vinculadas a dados do mundo real – especialmente quando se trata de informações contidas em imagens ou gráficos.

    Para setores onde a precisão é fundamental – jurídico, financeiro e médico – a falta de uma forma padronizada de medir factualidade tem sido um ponto cego crítico.

    Isso muda hoje: a equipe FACTS do Google e sua unidade de ciência de dados Kaggle lançou o FACTS Benchmark Suite, uma estrutura de avaliação abrangente concebido para colmatar esta lacuna.

    O associado artigo de pesquisa revela uma definição mais matizada do problema, dividindo "factualidade" em dois cenários operacionais distintos: "factualidade contextual" (baseando as respostas nos dados fornecidos) e "factualidade do conhecimento mundial" (recuperando informações da memória ou da web).

    Embora a manchete seja a colocação de primeira linha do Gemini 3 Pro, a história mais profunda para os construtores é a ampla indústria "parede de factualidade."

    De acordo com os resultados iniciais, nenhum modelo – incluindo Gemini 3 Pro, GPT-5 ou Claude 4.5 Opus – conseguiu atingir uma pontuação de precisão de 70% em todo o conjunto de problemas. Para os líderes técnicos, isto é um sinal: a era da "confie, mas verifique" está longe de terminar.

    Desconstruindo o benchmark

    O conjunto FACTS vai além de simples perguntas e respostas. Ele é composto por quatro testes distintos, cada um simulando um modo de falha diferente do mundo real que os desenvolvedores encontram na produção:

    1. Benchmark Paramétrico (Conhecimento Interno): O modelo pode responder com precisão a perguntas triviais usando apenas seus dados de treinamento?

    2. Referência de pesquisa (uso de ferramenta): O modelo pode usar efetivamente uma ferramenta de pesquisa na web para recuperar e sintetizar informações ao vivo?

    3. Referência Multimodal (Visão): O modelo pode interpretar com precisão gráficos, diagramas e imagens sem ter alucinações?

    4. Referência de aterramento v2 (contexto): O modelo pode seguir estritamente o texto fonte fornecido?

    O Google divulgou 3.513 exemplos ao público, enquanto o Kaggle mantém um conjunto privado para evitar que os desenvolvedores treinem com os dados de teste – um problema comum conhecido como "contaminação."

    A tabela de classificação: um jogo de polegadas

    A execução inicial do benchmark coloca o Gemini 3 Pro na liderança com uma pontuação FACTS abrangente de 68,8%, seguido pelo Gemini 2.5 Pro (62,1%) e pelo GPT-5 da OpenAI (61,8%).No entanto, uma análise mais detalhada dos dados revela onde estão os verdadeiros campos de batalha para as equipes de engenharia.

    Modelo

    Pontuação FACTS (média)

    Pesquisa (capacidade RAG)

    Multimodal (Visão)

    Gêmeos 3 Pró

    68,8

    83,8

    46,1

    Gêmeos 2.5 Pró

    62,1

    63,9

    46,9

    GPT-5

    61,8

    77,7

    44,1

    Grok 4

    53,6

    75,3

    25,7

    Fechar 4.5 Trabalho

    51.3

    73,2

    39,2

    Dados provenientes das notas de lançamento da equipe FACTS.

    Para Construtores: O "Procurar" vs. "Paramétrico" Brecha

    Para desenvolvedores que constroem sistemas RAG (Retrieval-Augmented Generation), o Search Benchmark é a métrica mais crítica.

    Os dados mostram uma enorme discrepância entre a capacidade de um modelo de "saber" coisas (paramétricas) e sua capacidade de "encontrar" coisas (Pesquisar). Por exemplo, Gemini 3 Pro pontua 83,8% em tarefas de pesquisa, mas apenas 76,4% em tarefas paramétricas.

    Isto valida o padrão atual de arquitetura empresarial: não confie na memória interna de um modelo para fatos críticos.

    Se você estiver construindo um bot de conhecimento interno, os resultados do FACTS sugerem que conectar seu modelo a uma ferramenta de pesquisa ou banco de dados vetorial não é opcional – é a única maneira de levar a precisão a níveis de produção aceitáveis.

    O Aviso Multimodal

    O dado mais alarmante para gerentes de produto é o desempenho em tarefas multimodais. As pontuações aqui são universalmente baixas. Mesmo o líder da categoria, Gemini 2.5 Pro, atingiu apenas 46,9% de precisão.

    As tarefas de benchmark incluíram leitura de gráficos, interpretação de diagramas e identificação de objetos na natureza. Com menos de 50% de precisão geral, isso sugere que a IA multimodal ainda não está pronta para extração de dados não supervisionada.

    Conclusão: Se o roteiro do seu produto envolve que uma IA extraia automaticamente dados de faturas ou interprete gráficos financeiros sem revisão humana, você provavelmente está introduzindo taxas de erro significativas em seu pipeline.

    Por que isso é importante para sua pilha

    O Benchmark FACTS provavelmente se tornará um ponto de referência padrão para compras. Ao avaliar modelos para uso empresarial, os líderes técnicos devem olhar além da pontuação composta e aprofundar-se no sub-benchmark específico que corresponda ao seu caso de uso:

    • Construindo um bot de suporte ao cliente? Observe a pontuação de Grounding para garantir que o bot cumpra seus documentos de política. (O Gemini 2.5 Pro superou o Gemini 3 Pro aqui, 74,2 vs 69,0).

    • Construindo um Assistente de Pesquisa? Priorize as pontuações da pesquisa.

    • Construindo uma ferramenta de análise de imagem? Proceda com extremo cuidado.

    Como a equipe FACTS observou em seu comunicado, "Todos os modelos avaliados alcançaram uma precisão global inferior a 70%, deixando uma margem considerável para progressos futuros."Por enquanto, a mensagem para a indústria é clara: os modelos estão a ficar mais inteligentes, mas ainda não são infalíveis. Projete seus sistemas partindo do pressuposto de que, em aproximadamente um terço das vezes, o modelo bruto pode estar errado.



    alerta benchmark empresarial FACTS factualidade Google novo para por teto
    Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
    rafasgeek
    • Website

    Related Posts

    Google adia o lançamento planejado do Android 17 Beta 1 para hoje

    fevereiro 11, 2026

    O Google Meet finalmente ganha um recurso de mídia compartilhada que deveria ter existido há muito tempo

    fevereiro 11, 2026

    O Android 17 Beta 1 chegou com atualizações importantes para aplicativos adaptáveis, desempenho e mídia

    fevereiro 11, 2026

    Comments are closed.

    Economy News
    Deals

    Atualize sua criação de conteúdo com esta oferta DJI Mic 3!

    By rafasgeekfevereiro 11, 20260

    Harley Maranan / Autoridade AndroidO áudio é um dos fatores mais críticos na produção de…

    A T-Mobile pode oferecer um Pixel 10 grátis se você estiver prestes a sair

    fevereiro 11, 2026

    Vazamento do OPPO Find X9 Ultra confirma enorme impacto na câmera

    fevereiro 11, 2026
    Top Trending
    Deals

    Atualize sua criação de conteúdo com esta oferta DJI Mic 3!

    By rafasgeekfevereiro 11, 20260

    Harley Maranan / Autoridade AndroidO áudio é um dos fatores mais críticos…

    Google Pixel 10

    A T-Mobile pode oferecer um Pixel 10 grátis se você estiver prestes a sair

    By rafasgeekfevereiro 11, 20260

    DR A T-Mobile está oferecendo a alguns clientes existentes até US$ 800…

    News

    Vazamento do OPPO Find X9 Ultra confirma enorme impacto na câmera

    By rafasgeekfevereiro 11, 20260

    Dhruv Butani / Autoridade AndroidDR O OPPO Find X9 Ultra foi avistado…

    Subscribe to News

    Receba as últimas notícias esportivas do NewsSite sobre o mundo, esportes e política.

    Advertisement

    Todos os dias, uma nova tecnologia é lançada, e eu Rafas Geek, estou aqui para divulgar para o mundo, o que à de novo!

    Siga-nos nas redes sociais:

    Facebook X (Twitter) Instagram YouTube

    Subscribe to Updates

    Receba as últimas notícias criativas do FooBar sobre arte, design e negócios.

    Facebook X (Twitter) Instagram Pinterest
    • Home
    • Tecnologia
    • Entretenimento
    • News
    © 2026 Rafas Geek - Tudo sobre tecnologia 👨🏻‍💻 Rafas Geek.

    Type above and press Enter to search. Press Esc to cancel.