Rita El Khoury / Autoridade Android
A IA continua a ser a palavra-chave tecnológica duradoura de 2023, com ChatGPT, Bard e similares gerando manchetes e, apenas ocasionalmente, alimentando um novo caso de uso brilhante que pode melhorar um pouco alguns aspectos de nossas vidas também.
Felizmente, a IA não dominou o mundo. Na verdade, a ameaça iminente de uma aquisição acelerada da IA talvez tenha diminuído um pouco, pelo menos por enquanto. Em vez disso, estou cada vez mais preocupado com o fato de que a maior ameaça vem do fato de que os humanos não entendem muito bem a IA. Quer estejamos fazendo perguntas estúpidas ou encontrando uma maneira de descarregar nosso trabalho, existe o risco de substituirmos nosso próprio pensamento crítico por uma alternativa que ainda não está equipada para isso.
O que a IA realmente é (e o que não é)
O problema é que a IA não é realmente inteligente, pelo menos ainda não, eles são muito bons em nos enganar fazendo-nos acreditar que são. A pista está no nome Bater papoGPT (o bit GPT também é importante). Mas seja Bard, Bing ou similar, esses são grandes modelos de linguagem (LLMs) que se especializam essencialmente na geração de texto semelhante ao humano. O que isso significa, em um nível muito bruto, é que eles são extremamente bons em modelar estatisticamente a próxima palavra provável (ou token) que aparece em uma frase. Graças às faixas de dados de treinamento, essa mesma modelagem estatística não é boa apenas para escrever frases; torna-se muito mais criativo e útil.
O que esses modelos certamente não são, apesar de suas respostas geralmente impressionantes, é inteligência de propósito geral (embora AGI seja o objetivo). Na verdade, não há análise ou pensamento crítico quando uma IA emite um soneto ou gera um código funcional. O fato de os LLMs serem aparentemente muito bons em uma ampla gama de coisas foi um feliz acidente descoberto na época do GPT-2. Com os conjuntos de dados muito mais massivos de hoje, os modelos são ainda melhores em conjurar respostas precisas de uma ampla gama de entradas.
O modelo de linguagem grande é especializado na geração de texto semelhante ao humano. As respostas corretas são um bônus.
Para explicar por que isso ocorre, considere o que um LLM faz quando você pede para nomear os planetas do sistema solar. Ele não vasculha a memória em busca de uma resposta; não há nenhuma entrada semelhante a um banco de dados para pesquisar. Em vez disso, ele pega seus tokens de entrada e produz uma string de texto estatisticamente provável com base em seus dados de treinamento. Em outras palavras, quanto mais frequentemente o modelo viu Marte, Terra e Saturno em frases sobre planetas durante o treinamento, maior a probabilidade de gerar essas palavras quando encontrar uma discussão semelhante no futuro. É uma simulação de conhecimento genuíno, mas não é da mesma forma que você ou eu aprendemos. Da mesma forma, se os dados de treinamento consistirem principalmente de artigos anteriores a 2006, seu LLM pode insistir incorretamente que Plutão também é um planeta (desculpe, Plutão).
Essa situação é um tanto complicada pelo Bard e pelo Bing, que podem acessar dados da internet. Mas o princípio orientador permanece o mesmo, os LLMs são projetados principalmente para gerar saídas de texto legíveis que os humanos aprovariam. Produzir uma resposta correta é um bônus, que pode e tem sido incentivado por meio de treinamento de reforço, mas em nenhum estágio ele “pensa” sobre a resposta correta para sua consulta. Daí seus erros muito comuns e a incapacidade de responder a algumas perguntas básicas, como “Que horas são?”
A matemática é outro exemplo muito bom para ajudar a entender esse ponto. Os LLMs não calculam como um computador tradicional; nenhum processador de processamento de números garante uma resposta correta. Também não funciona como o nosso cérebro. Em vez disso, os LLMs executam a matemática essencialmente da mesma maneira que geram texto, gerando o próximo token estatisticamente mais provável, mas isso não é o mesmo que calcular a resposta. No entanto, a revelação fascinante é que quanto mais dados você fornecer a um LLM, melhor ele simulará como fazer matemática (entre outras coisas). É por isso que GPT-3 e 4 são magnitudes melhores do que GPT-2 em aritmética simples de dois e três dígitos e pontuam muito mais alto em uma ampla variedade de testes. Não tem nada a ver com ser mais capaz de uma perspectiva tradicional de processamento de dados, mas sim com o fato de terem sido treinados com muito mais dados.
AIs aumentarão em poder, mas no momento eles estão longe de serem solucionadores de problemas de uso geral.
É o mesmo para escrever ensaios, gerar código e todos os outros recursos emergentes aparentemente milagrosos do LLM. Há uma simulação de esforço e pensamento, mas os resultados ainda são probabilidades baseadas em texto. Daí porque você frequentemente verá estilos e exemplos repetitivos, bem como erros factuais. Ainda assim, esse recurso de aprendizado “no contexto” torna os LLMs incrivelmente poderosos e adaptáveis a uma ampla gama de casos de uso.
No entanto, se você deseja uma IA extremamente capaz e robusta para matemática, física ou outros experimentos científicos, é necessário treinar o modelo de maneira muito diferente de um grande modelo de linguagem. Aqueles familiarizados com o cenário mais amplo já sabem que o OpenAI oferece vários modelos, como DALL.E para geração de imagens e Whisper para tradução de áudio para texto. Portanto, embora o ChatGPT4 e, eventualmente, o 5 continuem, sem dúvida, a melhorar a precisão e a variedade de coisas que podem fazer, eles ainda são modelos de linguagem no coração.
Vamos parar de fazer essas perguntas estúpidas à IA
Robert Triggs / Autoridade do Android
Então, de volta ao título; realmente precisamos de uma melhor compreensão desses pontos fortes e armadilhas antes de colocar a IA em prática.
Esperançosamente, está claro que seria tolice pedir a uma IA para escrever seu curso de ciências. É improvável que você entenda as equações corretamente e, mesmo assim, produzirá uma resposta estereotipada. E seria totalmente irresponsável aceitar conselhos financeiros de um. Mas mesmo questionamentos aparentemente mais banais também podem ser problemáticos. Embora possa ser divertido provocar reflexões sobre tópicos controversos ou enganá-lo para uma resposta errada, compartilhar o que é equivalente a uma sequência de texto probabilística como qualquer coisa próxima a uma opinião genuína está além da ignorância.
Não vamos entregar nosso pensamento crítico a um preditor de texto sofisticado.
Se você perguntar a um chatbot uma preferência ou fazer uma comparação, ele não está tirando de seus próprios pensamentos, um vasto cofre de conhecimento humano ou mesmo uma opinião coletivista escondida dentro de seu conjunto de dados. Em vez disso, está modelando estatisticamente o que determina ser a resposta de texto ideal que pode produzir para sua consulta, mas isso é muito diferente de pensar em uma resposta genuína. Por isso, esses modelos são copiados para filtrar consultas e respostas para as quais o modelo realmente não foi criado. Mesmo que você possa provocar tal resposta, eles certamente devem ser ignorados.
Resumindo, não devemos confundir uma resposta humana com um pensamento humano. Isso não diminui a impressão do simulacro de IA e as faixas de casos de uso emergentes para os quais eles são genuinamente úteis. Mas, em última análise, há muitos tópicos de IA mais emocionantes e existenciais para refletir do que suas preferências em cadeias de fast food e marcas de grife. Não vamos entregar nosso pensamento crítico a um preditor de texto sofisticado.