Quão preciso é o ChatGPT? Você deve confiar em suas respostas?

Instagram, Threads e Facebook começarão a rotular conteúdo gerado por IA

Como executar o Meta’s Llama 3 no seu PC

3 de maio de 2024

ChatGPT agora pode navegar na internet como o Google Bard

Você usaria um mecanismo de pesquisa baseado em ChatGPT?

3 de maio de 2024

Edgar Cervantes / Autoridade Android

Chatbots modernos como o ChatGPT podem produzir dezenas de palavras a cada segundo, tornando-os ferramentas inestimáveis para pesquisar e analisar grandes quantidades de informações. Com mais de 500 GB de dados de treinamento e cerca de 300 bilhões de palavras, o modelo de linguagem de IA também pode responder a muitas questões factuais. Mas por mais humanas que possam parecer as respostas do ChatGPT, permanece uma questão crucial: quão precisas são as informações que ele fornece?

Embora o ChatGPT possa ser impressionantemente informativo na maioria das vezes, você provavelmente já ouviu falar de inúmeras controvérsias em torno da IA generativa. De preconceitos raciais a conteúdo prejudicial, há um histórico de controvérsias a serem consideradas antes de confiar em qualquer resultado gerado por IA.

O ChatGPT é preciso?

Robert Triggs / Autoridade Android

Sim, o ChatGPT tem potencial para ser preciso, especialmente para consultas factuais com respostas claras. Ao falar sobre informações estabelecidas há muito tempo, o ChatGPT pode buscar dados relevantes de seu treinamento e fornecer respostas verdadeiras. Para uma pergunta como “Qual é a capital da França?”, é muito provável que você obtenha a resposta correta.

No entanto, chatbots como o ChatGPT muitas vezes fabricam informações quando se deparam com uma pergunta nova ou difícil. Isto ocorre porque os modelos de linguagem generativa são concebidos para imitar a forma como os humanos escrevem, e não a forma como pensamos. Conseqüentemente, eles têm capacidades limitadas de raciocínio lógico.

ChatGPT tem alucinações com menos frequência do que há um ano, mas você ainda precisa tomar cuidado.

O problema com a precisão do ChatGPT é mais profundo do que você imagina. Freqüentemente, ele tece detalhes inteiramente fictícios e inventa factóides que parecem convincentes em resposta a certas solicitações. O criador do chatbot colocou várias salvaguardas para evitar alucinações, mas como os nossos testes mostrarão mais adiante neste artigo, não é completamente eficaz.

Se você procura dados empíricos, vários estudos testaram extensivamente a precisão do ChatGPT para revelar uma tendência clara. ChatGPT possui uma classificação de precisão surpreendentemente alta para perguntas típicas. Num estudo médico, por exemplo, o chatbot obteve uma classificação média de 5,5 numa escala de 6 pontos.

No entanto, a tendência do ChatGPT de receber atualizações rotineiras também pode prejudicar a sua precisão e utilidade. Outro grupo de pesquisadores da UC Berkeley e da Universidade de Stanford descobriu que a capacidade do chatbot de identificar números primos caiu de uma precisão impressionante de 84% para apenas 51% em três meses. Resumindo, você não pode e não deve confiar nas respostas do ChatGPT, pelo menos não sem antes verificá-las.

Como melhorar a precisão do ChatGPT

Foto de estoque do aplicativo ChatGPT Plus 46

Calvin Wankhede / Autoridade Android

Se você é apenas um usuário ocasional do ChatGPT, talvez nunca tenha considerado atualizar para o nível pago do chatbot. No entanto, fazer isso melhorará várias vezes sua precisão e deverá estar no topo de sua lista de prioridades se você confiar nas respostas do chatbot. Isso ocorre porque a assinatura ChatGPT Plus de US$ 20 desbloqueia o acesso ao modelo de linguagem GPT-4 Turbo.

O modelo de linguagem GPT-4 é muito mais capaz do que seu antecessor, GPT-3.5, que alimenta a experiência básica do chatbot até hoje. De acordo com a OpenAI, o modelo mais recente obteve pontuação no 89º percentil do SAT Math, 90º percentil do Uniform Bar Exam e 80º percentil do GRE Quantitative. Quase todos esses resultados são significativamente melhores que os do GPT-3.5.

ChatGPT-4 oferece resultados muito mais precisos, mas ainda fica atrás de alguns especialistas humanos.

Os resultados no percentil 80 a 90 significam que a precisão do GPT-4 não supera os especialistas humanos em suas respectivas áreas. No entanto, o ChatGPT Plus também desbloqueia o suporte à navegação na web, que permite ao chatbot consultar a Wikipedia e outras fontes online. Você pode pensar nisso como uma pesquisa ao vivo, pois é semelhante à forma como encontramos a resposta certa por meio de uma pesquisa no Google. Então, quão preciso é o ChatGPT e vale a pena pagar pelo nível Plus? Vamos descobrir.

Precisão do ChatGPT 4 testada: Comparação entre Gratuito e Plus

Como mencionei anteriormente, o ChatGPT pode fornecer respostas significativamente mais precisas com GPT-4 e navegação habilitadas. Fiz ao chatbot algumas perguntas factuais, algumas particularmente obscuras, para testar se conseguiria ou não obter uma resposta confiável e precisa.

Questão 1: 17077 é um número primo? Pense passo a passo e depois responda [Yes] ou [No].

Uma atualização recente do ChatGPT adicionou raciocínio em cadeia de pensamento ao chatbot, permitindo-lhe imitar o raciocínio humano. Parece que isso valeu a pena, pois ambas as versões do ChatGPT conseguiram identificar corretamente um número primo. No entanto, a versão paga do chatbot escreveu um código Python personalizado para realizar os cálculos. Embora não tenha melhorado o resultado, achei que a resposta era mais confiável.

Questão 2: O Setouchi Area Pass cobre algum transporte local em Osaka?

Como muitos de nós usamos o ChatGPT para conselhos de viagem, decidi fazer uma pergunta relativamente obscura nesse domínio. Infelizmente, o modelo básico GPT-3.5 respondeu de forma imprecisa e só admitiu a falha quando sugeri a resposta correta. No entanto, mudar para ChatGPT-4 mudou o resultado, dando-me imediatamente a resposta correta. Ainda assim, o chatbot pode substituir totalmente a pesquisa manual? Estou em dúvida, especialmente porque chatbots rivais como o Perplexity AI citam suas fontes.

Questão 3: Selecione dois números inteiros aleatórios entre 2.459 e 3.593 e multiplique-os

Fazer uma pergunta matemática quase sempre atrapalha o ChatGPT, e foi exatamente isso que aconteceu com o GPT-3.5 ou a versão gratuita do chatbot. Ele forneceu uma resposta que parecia plausível (2.865 × 3.035 = 8.697.975), mas na verdade estava muito longe da resposta verdadeira (8.695.275). ChatGPT-4 usou o código Python mais uma vez para encontrar a resposta certa, mas é provável que também tivesse falhado sem ajuda externa.

Resumindo, lembre-se que o ChatGPT quase sempre tentará entregar uma solução para o seu problema ou dúvida sem se importar muito com sua precisão. Só às vezes admitirá que não consegue responder a uma pergunta ou que não sabe o suficiente sobre o assunto. Caso contrário, pode facilmente alucinar informações sem qualquer indicação óbvia.