Calvin Wankhede / Autoridade Android
Com a competição dos modelos de IA Gemini do Google e Claude da Anthropic esquentando, a OpenAI se viu no meio de uma crise de identidade. Antes líder indiscutível em modelos de linguagem grande (LLMs), agora está lutando para manter sua posição no topo. Novos modelos como ChatGPT-4o e 4o mini estancaram o êxodo para chatbots de IA concorrentes, mas a OpenAI está sob pressão constante para continuar inovando. A empresa fez exatamente isso com o o1-preview, uma nova série de modelos de IA que se destaca no raciocínio complexo e na emulação do pensamento humano. Quão bom é? Eu o coloquei à prova para descobrir.
Do que se trata o novo modelo o1-preview ChatGPT?
O o1-preview e o o1-mini da OpenAI são os modelos mais recentes disponíveis no ChatGPT, projetados para tarefas complexas de raciocínio e resolução de problemas. Como seus nomes sugerem, esses modelos não são sucessores geracionais do GPT-4 ou de qualquer um dos modelos de linguagem anteriores da OpenAI. Na verdade, o GPT-4o não só continuará existindo, mas também permanecerá como o modelo padrão para todos os chats.
Diferentemente dos modelos anteriores que respondiam aos seus prompts o mais rápido possível, a série o1 foi projetada para gastar mais tempo pensando em problemas, semelhante ao processo de pensamento de um ser humano. Isso naturalmente garante maior precisão em prompts relacionados a matemática e codificação, mas também é útil para perguntas e cenários do mundo real, como mostrarei em meus testes abaixo.
Ouvimos falar pela primeira vez sobre a série de modelos o1 em julho, quando Reuters entrevistou pesquisadores familiarizados com um projeto interno secreto com o codinome Strawberry. O objetivo do projeto era desenvolver uma IA capaz de realizar “pesquisa profunda”, em linha com a missão da empresa de atingir inteligência geral artificial (AGI). Este último se refere a um sistema de IA que é inteligente o suficiente para superar os humanos em vários assuntos. Havia rumores de que o projeto Strawberry chegaria antes do GPT-5, que ainda está sendo desenvolvido.
o1 é a mais recente família de modelos da OpenAI que pode analisar problemas e raciocinar como um humano.
A nova série o1 ainda está muito longe de atingir o verdadeiro AGI — o CEO da OpenAI, Sam Altman, admitiu que “o1 ainda é falho, ainda é limitado e ainda parece mais impressionante no primeiro uso do que depois que você passa mais tempo com ele”. No entanto, é um grande salto em relação ao primeiro lançamento do ChatGPT, que muitos acreditavam que nunca teria sucesso na resolução de problemas de matemática ou exercícios lógicos.
Embora o o1-preview seja o modelo principal mais novo, ele também é acompanhado por um o1-mini muito mais enxuto e rápido. A OpenAI descobriu que a série se destaca na codificação, então também lançou um segundo modelo que pode gerar e depurar código com precisão. Destinado principalmente a desenvolvedores, o o1-mini é 80% mais barato que o o1-preview.
o1-preview vs GPT-4o testado: é realmente melhor?
Se você está cético de que o o1-preview está muito à frente dos modelos anteriores, há boas notícias — o chatbot faz uma pausa para pensar, às vezes mais de um minuto, antes de responder. Ele divide problemas complexos em pedaços, o que o ajuda a corrigir erros
No entanto, também há más notícias — a série o1 não é universalmente melhor em todos os aspectos. Em particular, ela não pode pesquisar na internet por novas informações como o modelo GPT-4o mais antigo, nem pode executar análises avançadas de dados. Você também não pode carregar arquivos e imagens, o que significa que você terá que carregar cada prompt com o máximo de informações e contexto possível. A OpenAI até admite que muitos usuários do ChatGPT vão querer ficar com o GPT-4o por enquanto.
Deixando de lado essas ressalvas, no entanto, como ele funciona? Para descobrir, eu coloquei um punhado de perguntas confusas e complexas para ambos os melhores modelos da OpenAI. Aqui está como o o1-preview se saiu em comparação ao GPT-4o.
Prompt 1: Quantas pernas eu tenho?
Começando com uma pergunta fácil, perguntei ao ChatGPT quantas pernas eu teria se tivesse 4 vacas, 3 cachorros, 2 gatos. A resposta é obviamente duas, o que o GPT-4o apresentou, mas somente depois de dizer que eu teria 36 pernas de animais. Em contraste, observei o modelo o1-preview “pensar” por cinco segundos antes de dizer corretamente (e com confiança) que eu teria duas pernas. Ele também reconheceu que a pergunta era um enigma.
Também fiz a mesma pergunta ao modelo menor GPT-4o mini da OpenAI e ele falhou miseravelmente. Ele simplesmente disse que eu teria 38 pernas, adicionando as minhas à contagem dos animais.
Prompt 2: Cálculo do retorno do investimento, considerando a depreciação da moeda
Como prompts simples exigem apenas alguns segundos de pensamento, decidi levar as coisas a um nível mais alto. Neste prompt, pedi ao ChatGPT para encontrar o melhor investimento entre dois ativos com retornos e riscos diferentes. O chatbot levou 11 segundos para pensar antes de responder desta vez. Mais uma vez, ele deu a resposta correta ao explicar cada etapa.
Curiosamente, o GPT-4o também chegou à mesma conclusão, mas não calculou os números sozinho. Em vez disso, ele gerou o código Python necessário para executar os cálculos e o executou por meio do recurso de análise avançada de dados do ChatGPT. Então, embora a saída seja a mesma, a complexidade é maior. A codificação como uma solução alternativa também tem o potencial de falhar espetacularmente, como eu logo descobriria.
Pergunta 3: O que é melhor, comprar uma casa ou alugar?
Se você anda com pessoas financeiramente experientes, sabe que alugar ou comprar uma casa é um tópico superdivisivo que envolve muitas variáveis, tanto financeiras quanto outras. Felizmente, podemos pedir ao ChatGPT para fazer as contas para nós — o modelo o1-preview colocou 37 segundos de reflexão nessa questão e a dividiu em 12 etapas diferentes.
Forneci vários números, incluindo o valor da minha entrada, taxa de juros, retorno esperado do investimento se eu alugasse, e mais. Isso tornou a questão muito mais complicada — o ChatGPT teve que primeiro calcular o custo de uma casa de $ 800.000 com uma entrada de $ 200.000. O valor restante seria financiado com uma hipoteca de 20 anos a juros de 3,5%. Se eu alugasse, eu seria capaz de investir todos os $ 200.000 em um fundo de índice e economizar qualquer renda extra depois de pagar o aluguel também.
O modelo o1-preview respondeu com uma análise de 1.000 palavras do problema, concluindo que meu patrimônio líquido seria maior em aproximadamente US$ 716.620 após 20 anos se eu alugasse uma casa em vez de comprá-la.
O modelo GPT-4o anterior do OpenAI não consegue acompanhar o o1-preview em tarefas de raciocínio avançado.
Alimentar o mesmo prompt para o GPT-4o produziu um resultado muito mais decepcionante. O modelo tentou gerar e executar código Python para resolver esse problema, mas falhou duas vezes antes de ter sucesso na terceira tentativa. Mesmo assim, ele respondeu incorretamente e sugeriu que eu economizaria dinheiro comprando uma casa. Ele só admitiu a falha quando apontei uma discrepância em seus cálculos.
Como há muito mais variáveis que podem estar envolvidas, também pedi ao o1-preview para considerar fatores como valorização da propriedade, custos de manutenção e impostos se eu comprasse uma casa, bem como um potencial aumento de 3% no aluguel a pagar todo ano. Desta vez, levou 142 segundos para pensar antes de responder com uma conclusão plausível, o que eu acho muito impressionante.
Como usar os modelos o1-preview e o1-mini do ChatGPT
Como você deve ter adivinhado, a série de modelos o1 requer grandes quantidades de poder computacional. E dado que o próprio ChatGPT tem sido considerado não lucrativo desde seu lançamento em 2022, não é surpreendente que a OpenAI tenha bloqueado o o1-preview atrás de um paywall. Em outras palavras, você precisará de uma assinatura ChatGPT Plus para selecionar o modelo mais recente no menu suspenso mostrado acima.
Na verdade, o modelo é tão caro que a OpenAI também colocou um teto rígido de 50 mensagens por semana além do paywall de US$ 20 por mês. Depois de esgotar essa cota, sua única opção é esperar ou pagar por uma segunda conta ChatGPT Plus. A OpenAI impôs tais limites de taxa no passado, especialmente na época em que o GPT-4 foi introduzido pela primeira vez, mas esta instância é a mais agressiva até agora.
Felizmente, a grande maioria dos prompts do ChatGPT não se beneficiam das capacidades de pensamento do o1. E se você é um programador, o modelo o1-mini dentro do ChatGPT também está sendo implementado no plano gratuito em uma capacidade limitada.
Não, você precisa pagar por uma assinatura do ChatGPT Plus para usar o modelo o1-preview. No entanto, o modelo o1-mini está disponível no nível gratuito em uma capacidade limitada.
No geral, o novo modelo o1-preview do ChatGPT é muito impressionante e vale a pena dar uma olhada se você tiver dúvidas sobre matemática e programação. Pode não ser a melhor escolha para a maioria das tarefas, ou mesmo para a grande maioria delas, mas é o mais próximo que temos de emular o raciocínio e o pensamento humanos. No entanto, a grande maioria dos usuários não se beneficiará das habilidades aprimoradas de raciocínio lógico ou capacidades matemáticas do o1-preview, então não posso recomendar mudar para ele em tempo integral. O limite de resposta semanal e a falta de suporte para navegação na web também significam que continuarei usando o GPT-4o daqui para frente. E se você usar o ChatGPT apenas algumas vezes por dia, pode facilmente sobreviver com uma conta gratuita.
O recurso Pro Search do Perplexity também implementou o raciocínio multietapas alguns meses atrás e também apresentou resultados impressionantes em meus testes. Se você quiser dar uma olhada no raciocínio de IA de cadeia de pensamento sem pagar por isso, recomendo experimentá-lo, pois você obtém cinco pesquisas do Perplexity Pro a cada poucas horas no nível gratuito. Ainda não o testei contra o o1-preview do OpenAI frente a frente, mas está claro que a competição no espaço de IA forçou o ChatGPT a evoluir e mal posso esperar para ver para onde ele está indo.