Close Menu
    What's Hot

    As portas USB do seu monitor estão escondendo poderes secretos

    dezembro 13, 2025

    O Samsung Galaxy S26 já é o pior celular de 2026

    dezembro 13, 2025

    Android 17 pode imitar esse recurso do iOS para reduzir enjôo

    dezembro 13, 2025
    Facebook X (Twitter) Instagram
    Rafas Geek
    • Tech

      Este alto-falante Bluetooth abaixo de £ 40 é minha recomendação para meia

      dezembro 13, 2025

      O enorme impulso do Android tornou os novos telefones econômicos muito mais poderosos

      dezembro 13, 2025

      A Amazon oferece um grande motivo para abandonar seu alto-falante Echo e tentar algo

      dezembro 13, 2025

      Apagão do canal Freeview confirmado e aqui está o que desapareceu da sua TV

      dezembro 12, 2025

      A última atualização gratuita do WhatsApp pode significar o fim do seu correio de voz

      dezembro 12, 2025
    • News

      Android 17 pode imitar esse recurso do iOS para reduzir enjôo

      dezembro 13, 2025

      Ofertas de telefones importantes: todos os dispositivos da série Google Pixel 10 ainda estão à venda

      dezembro 13, 2025

      Amazon Echo Show 8 e 11 caem para preços recordes

      dezembro 12, 2025

      As ferramentas de marcação de imagens do Google Gemini começam a ser disponibilizadas

      dezembro 12, 2025

      Transforme seu telefone Android em meio Game Boy com este controlador de encaixe

      dezembro 12, 2025
    • Negócios

      Qual é a definição de empresário individual e autônomo

      dezembro 9, 2025

      7 vantagens de ser empresário individual

      dezembro 9, 2025

      9 maneiras de economizar impostos para empresários individuais

      dezembro 8, 2025

      Sábado para pequenas empresas – como promover o seu negócio

      dezembro 1, 2025

      Quais são as taxas comerciais? Um guia para pequenas empresas

      novembro 27, 2025
    • Mundo

      O Galaxy Z TriFold está pronto para o mercado dos EUA com essas ofertas

      dezembro 2, 2025

      Os telefones Samsung em um grande mercado receberão muitos utilitários de sistema

      novembro 14, 2025

      O Google Chrome é o pior navegador para quem não é técnico – eis o porquê

      outubro 25, 2025

      O Galaxy Z Flip 8 poderia usar um chip especial da Qualcomm com um pouco de molho extra da Samsung

      outubro 10, 2025

      Um dos melhores telefones de câmera de 2025 é obter uma sequência

      setembro 2, 2025
    • Contato
    Facebook X (Twitter) Instagram
    Rafas Geek
    AI

    O teto de factualidade de 70%: por que o novo benchmark ‘FACTS’ do Google é um alerta para a IA empresarial

    rafasgeekBy rafasgeekdezembro 10, 2025Nenhum comentário5 Mins Read
    Facebook Twitter Pinterest LinkedIn Tumblr Email
    Share
    Facebook Twitter LinkedIn Pinterest Email





    Não faltam benchmarks de IA generativos projetados para medir o desempenho e a precisão de um determinado modelo na conclusão de várias tarefas empresariais úteis – desde codificação para instrução seguinte para navegação na web agente e uso de ferramenta. Mas muitos desses benchmarks têm uma grande falha: medem a capacidade da IA ​​de resolver problemas e solicitações específicas, e não como factual o modelo está nos seus resultados – quão bem ele gera informações objetivamente corretas vinculadas a dados do mundo real – especialmente quando se trata de informações contidas em imagens ou gráficos.

    Para setores onde a precisão é fundamental – jurídico, financeiro e médico – a falta de uma forma padronizada de medir factualidade tem sido um ponto cego crítico.

    Isso muda hoje: a equipe FACTS do Google e sua unidade de ciência de dados Kaggle lançou o FACTS Benchmark Suite, uma estrutura de avaliação abrangente concebido para colmatar esta lacuna.

    O associado artigo de pesquisa revela uma definição mais matizada do problema, dividindo "factualidade" em dois cenários operacionais distintos: "factualidade contextual" (baseando as respostas nos dados fornecidos) e "factualidade do conhecimento mundial" (recuperando informações da memória ou da web).

    Embora a manchete seja a colocação de primeira linha do Gemini 3 Pro, a história mais profunda para os construtores é a ampla indústria "parede de factualidade."

    De acordo com os resultados iniciais, nenhum modelo – incluindo Gemini 3 Pro, GPT-5 ou Claude 4.5 Opus – conseguiu atingir uma pontuação de precisão de 70% em todo o conjunto de problemas. Para os líderes técnicos, isto é um sinal: a era da "confie, mas verifique" está longe de terminar.

    Desconstruindo o benchmark

    O conjunto FACTS vai além de simples perguntas e respostas. Ele é composto por quatro testes distintos, cada um simulando um modo de falha diferente do mundo real que os desenvolvedores encontram na produção:

    1. Benchmark Paramétrico (Conhecimento Interno): O modelo pode responder com precisão a perguntas triviais usando apenas seus dados de treinamento?

    2. Referência de pesquisa (uso de ferramenta): O modelo pode usar efetivamente uma ferramenta de pesquisa na web para recuperar e sintetizar informações ao vivo?

    3. Referência Multimodal (Visão): O modelo pode interpretar com precisão gráficos, diagramas e imagens sem ter alucinações?

    4. Referência de aterramento v2 (contexto): O modelo pode seguir estritamente o texto fonte fornecido?

    O Google divulgou 3.513 exemplos ao público, enquanto o Kaggle mantém um conjunto privado para evitar que os desenvolvedores treinem com os dados de teste – um problema comum conhecido como "contaminação."

    A tabela de classificação: um jogo de polegadas

    A execução inicial do benchmark coloca o Gemini 3 Pro na liderança com uma pontuação FACTS abrangente de 68,8%, seguido pelo Gemini 2.5 Pro (62,1%) e pelo GPT-5 da OpenAI (61,8%).No entanto, uma análise mais detalhada dos dados revela onde estão os verdadeiros campos de batalha para as equipes de engenharia.

    Modelo

    Pontuação FACTS (média)

    Pesquisa (capacidade RAG)

    Multimodal (Visão)

    Gêmeos 3 Pró

    68,8

    83,8

    46,1

    Gêmeos 2.5 Pró

    62,1

    63,9

    46,9

    GPT-5

    61,8

    77,7

    44,1

    Grok 4

    53,6

    75,3

    25,7

    Fechar 4.5 Trabalho

    51.3

    73,2

    39,2

    Dados provenientes das notas de lançamento da equipe FACTS.

    Para Construtores: O "Procurar" vs. "Paramétrico" Brecha

    Para desenvolvedores que constroem sistemas RAG (Retrieval-Augmented Generation), o Search Benchmark é a métrica mais crítica.

    Os dados mostram uma enorme discrepância entre a capacidade de um modelo de "saber" coisas (paramétricas) e sua capacidade de "encontrar" coisas (Pesquisar). Por exemplo, Gemini 3 Pro pontua 83,8% em tarefas de pesquisa, mas apenas 76,4% em tarefas paramétricas.

    Isto valida o padrão atual de arquitetura empresarial: não confie na memória interna de um modelo para fatos críticos.

    Se você estiver construindo um bot de conhecimento interno, os resultados do FACTS sugerem que conectar seu modelo a uma ferramenta de pesquisa ou banco de dados vetorial não é opcional – é a única maneira de levar a precisão a níveis de produção aceitáveis.

    O Aviso Multimodal

    O dado mais alarmante para gerentes de produto é o desempenho em tarefas multimodais. As pontuações aqui são universalmente baixas. Mesmo o líder da categoria, Gemini 2.5 Pro, atingiu apenas 46,9% de precisão.

    As tarefas de benchmark incluíram leitura de gráficos, interpretação de diagramas e identificação de objetos na natureza. Com menos de 50% de precisão geral, isso sugere que a IA multimodal ainda não está pronta para extração de dados não supervisionada.

    Conclusão: Se o roteiro do seu produto envolve que uma IA extraia automaticamente dados de faturas ou interprete gráficos financeiros sem revisão humana, você provavelmente está introduzindo taxas de erro significativas em seu pipeline.

    Por que isso é importante para sua pilha

    O Benchmark FACTS provavelmente se tornará um ponto de referência padrão para compras. Ao avaliar modelos para uso empresarial, os líderes técnicos devem olhar além da pontuação composta e aprofundar-se no sub-benchmark específico que corresponda ao seu caso de uso:

    • Construindo um bot de suporte ao cliente? Observe a pontuação de Grounding para garantir que o bot cumpra seus documentos de política. (O Gemini 2.5 Pro superou o Gemini 3 Pro aqui, 74,2 vs 69,0).

    • Construindo um Assistente de Pesquisa? Priorize as pontuações da pesquisa.

    • Construindo uma ferramenta de análise de imagem? Proceda com extremo cuidado.

    Como a equipe FACTS observou em seu comunicado, "Todos os modelos avaliados alcançaram uma precisão global inferior a 70%, deixando uma margem considerável para progressos futuros."Por enquanto, a mensagem para a indústria é clara: os modelos estão a ficar mais inteligentes, mas ainda não são infalíveis. Projete seus sistemas partindo do pressuposto de que, em aproximadamente um terço das vezes, o modelo bruto pode estar errado.



    alerta benchmark empresarial FACTS factualidade Google novo para por teto
    Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
    rafasgeek
    • Website

    Related Posts

    Android 17 pode imitar esse recurso do iOS para reduzir enjôo

    dezembro 13, 2025

    Os melhores bancos de energia de 2025 para comprar nesta temporada de férias

    dezembro 13, 2025

    Projetor Google TV e uma verdadeira alternativa de TV

    dezembro 13, 2025

    Comments are closed.

    Economy News
    Desktop PCs

    As portas USB do seu monitor estão escondendo poderes secretos

    By rafasgeekdezembro 13, 20250

    Muitos monitores modernos vêm com hubs USB integrados. Esses hubs não fornecem apenas portas extras,…

    O Samsung Galaxy S26 já é o pior celular de 2026

    dezembro 13, 2025

    Android 17 pode imitar esse recurso do iOS para reduzir enjôo

    dezembro 13, 2025
    Top Trending
    Desktop PCs

    As portas USB do seu monitor estão escondendo poderes secretos

    By rafasgeekdezembro 13, 20250

    Muitos monitores modernos vêm com hubs USB integrados. Esses hubs não fornecem…

    Features

    O Samsung Galaxy S26 já é o pior celular de 2026

    By rafasgeekdezembro 13, 20250

    Quanto mais ouvimos sobre a próxima série Galaxy S26, mais desanimador parece…

    Android 17

    Android 17 pode imitar esse recurso do iOS para reduzir enjôo

    By rafasgeekdezembro 13, 20250

    Muitas pessoas evitam usar seus telefones Android em veículos em movimento devido…

    Subscribe to News

    Receba as últimas notícias esportivas do NewsSite sobre o mundo, esportes e política.

    Advertisement

    Todos os dias, uma nova tecnologia é lançada, e eu Rafas Geek, estou aqui para divulgar para o mundo, o que à de novo!

    Siga-nos nas redes sociais:

    Facebook X (Twitter) Instagram YouTube

    Subscribe to Updates

    Receba as últimas notícias criativas do FooBar sobre arte, design e negócios.

    Facebook X (Twitter) Instagram Pinterest
    • Home
    • Tecnologia
    • Entretenimento
    • News
    © 2025 Rafas Geek - Tudo sobre tecnologia 👨🏻‍💻 Rafas Geek.

    Type above and press Enter to search. Press Esc to cancel.