Edgar Cervantes / Autoridade Android

DR

  • Entre os principais sistemas de resumo de notícias de IA, o Google Gemini teve o pior desempenho, mostrando problemas significativos em muitos resultados.
  • Gemini teve dificuldade em identificar fontes confiáveis, fornecer citações e vincular seu material de origem.
  • Embora as ferramentas de todos mostrem sinais de melhoria, Gemini ainda está atrás.

Você não pode conduzir uma conversa sobre IA sem que alguém traga rapidamente à tona o inconveniente tópico dos erros. Por mais úteis que esses sistemas possam ser quando se trata de organizar informações, e por mais impressionante que seja o conteúdo de que a IA generativa pode aparentemente surgir do nada, não precisamos ir muito longe antes de começarmos a notar todas as manchas nesta fachada polida. Embora definitivamente tenha havido progresso desde os velhos tempos das visões gerais de IA do Google, alucinando um absurdo total, até onde as coisas realmente chegaram? Algumas novas pesquisas estão analisando exatamente isso.

Não quero perder o melhor de Autoridade Android?

A European Broadcasting Union (EBU) e a BBC estavam interessadas em quantificar o desempenho de sistemas como OpenAI ChatGPT, Google Gemini, Microsoft Copilot e Perplexity quando se trata de fornecer resumos de notícias gerados por IA, especialmente com 15% dos jovens com menos de 25 anos que dependem da IA ​​para as suas notícias. A BBC inicialmente realizou uma ampla pesquisa, bem como uma série de seis grupos focais, todos coletando dados sobre nossas experiências e opiniões sobre esses sistemas de IA. Essa abordagem foi posteriormente ampliada para a análise internacional da UER.

Olhando para as crenças e expectativas, cerca de 42% dos adultos do Reino Unido envolvidos nesta investigação relataram que confiavam na precisão da IA, com o número a crescer nas faixas etárias mais jovens. Também afirmam estar muito preocupados com a precisão e 84% afirmam que erros factuais prejudicariam significativamente essa confiança. Embora isso possa parecer uma abordagem apropriadamente cautelosa, quanto desse conteúdo é realmente impreciso – e as pessoas estão percebendo?

Com base nos resultados, teríamos que adivinhar “não”, já que a maioria das respostas da IA ​​apresentou algum problema:

Nenhum dos modelos avaliados teve um bom desempenho e a maioria estava no mesmo patamar no que diz respeito ao desempenho nesses testes. Mas depois há Gémeos, que é apenas uma discrepância pronunciada, tanto em termos de questões totais – como muito mais preocupante, daquelas consideradas de consequências significativas:

O que Gêmeos está fazendo tão mal? Entre os problemas que os investigadores destacam estão a falta de ligações claras aos materiais de origem, a incapacidade de distinguir entre fontes fiáveis ​​e conteúdo satírico, a dependência excessiva da Wikipédia, a incapacidade de estabelecer um contexto relevante e a destruição de citações diretas.

Ao longo dos seis meses entre a recolha dos dois principais conjuntos de dados em que este estudo se baseia, estes sistemas de IA evoluíram e, no final, apresentavam menos problemas com resumos de notícias do que no início. É ótimo ouvir isso, e Gêmeos, em particular, obteve alguns dos maiores ganhos quando se trata de precisão. Mas mesmo com essas melhorias, a Gemini ainda apresenta problemas muito mais significativos com os seus resumos do que os seus pares.

Definitivamente, vale a pena ler o relatório completo da EBU se você tiver um interesse passageiro em nosso relacionamento com notícias processadas por IA. Se não for suficiente reconsiderar seriamente o nível de confiança que você deposita nesses sistemas, você provavelmente precisará lê-lo com mais atenção.

Entramos em contato com o Google para ver se a empresa tem algum comentário sobre os métodos ou resultados compartilhados aqui e iremos atualizá-lo com qualquer resposta que recebermos.

Obrigado por fazer parte da nossa comunidade. Leia nossa Política de Comentários antes de postar.



Share.

Comments are closed.

Exit mobile version