Calvin Wankhede / Autoridade Android
Se você é um usuário frequente do ChatGPT, deve ter notado que o chatbot AI ocasionalmente tende a cair ou parar de funcionar nos momentos mais inconvenientes. Essas interrupções geralmente não duram muito, mas depois que a última me deixou perdido, comecei a desejar uma alternativa mais confiável. Felizmente, existe uma solução simples na forma de modelos de linguagem local como o LLaMA 3. A melhor parte? Eles podem funcionar até mesmo em hardware relativamente simples, como um MacBook Air! Aqui está tudo o que aprendi usando o LLaMA 3 e como ele se compara ao ChatGPT.
Por que você deve se preocupar com chatbots locais de IA
A maioria de nós só usou o ChatGPT e alternativas conhecidas como o Copilot da Microsoft e o Gemini do Google. No entanto, todos esses chatbots são executados em servidores poderosos em data centers distantes. Mas usar a nuvem significa apenas depender do computador de outra pessoa, que pode ficar inativo ou parar de funcionar por horas a fio.
Também não está claro como os chatbots de IA baseados em nuvem respeitam seus dados e privacidade. Sabemos que o ChatGPT salva conversas para treinar modelos futuros e o mesmo provavelmente se aplica a todas as outras grandes empresas de tecnologia por aí. Não é nenhuma surpresa que empresas em todo o mundo, desde Samsung até Wells Fargo, tenham limitado seus funcionários de usar o ChatGPT internamente.
Os chatbots de IA online não são confiáveis nem privados.
É aqui que entram os chatbots de IA executados localmente. Veja o LLaMA 3, por exemplo, que é um modelo de linguagem de código aberto desenvolvido pela divisão de IA da Meta (sim, a mesma empresa proprietária do Facebook e do WhatsApp). A principal distinção aqui é o status de código aberto do LLaMA – significa que qualquer pessoa pode baixá-lo e executá-lo por conta própria. E como nenhum dado sai do seu computador, você não precisa se preocupar em vazar segredos.
O único requisito para rodar o LLaMA 3 é um computador relativamente moderno. Infelizmente, isso desqualifica smartphones e tablets. No entanto, descobri que você pode executar a versão menor do LLaMa 3 em hardware surpreendentemente simples, incluindo muitos laptops lançados nos últimos anos.
LLaMA 3 vs ChatGPT: Como funciona a IA offline?
Abordarei como instalar o LLaMA 3 em seu computador na próxima seção, mas você pode querer saber primeiro como ele se comporta em relação ao ChatGPT. A resposta não é direta porque ChatGPT e LLaMA 3 vêm em variações diferentes.
Até o mês passado, a versão gratuita do ChatGPT estava restrita ao modelo antigo GPT-3.5 e você precisava pagar US$ 20 por mês para usar o GPT-4. Com o lançamento do GPT-4o, no entanto, o OpenAI agora permite que usuários gratuitos acessem seu modelo mais recente com algumas restrições sobre quantas mensagens você pode enviar por hora.
O LLaMA 3 também vem em dois tamanhos de modelo: 8 bilhões e 70 bilhões de parâmetros. A versão 8B é a única escolha para aqueles com recursos computacionais limitados, o que significa essencialmente todos, exceto os jogadores de PC mais obstinados. Veja bem, o modelo maior de 70B requer pelo menos 24 GB de memória de vídeo (VRAM), que atualmente está disponível apenas em GPUs exóticas de US$ 1.600, como a RTX 4090 da Nvidia. Mesmo assim, você terá que se contentar com uma versão compactada como o modelo 70B completo. requer 48 GB de VRAM.
Diante de tudo isso, o LLaMA 3 8B é naturalmente o nosso modelo preferido. A boa notícia é que ele se compara muito bem ao GPT-3.5, ou modelo básico do ChatGPT. Aqui estão algumas comparações entre os dois:
- Solicitação 1: Escreva uma carta de apresentação para o cargo de Engenheiro DevOps no YouTube. Trabalho na Oracle Cloud desde que me formei como engenheiro de software em 2019.
Resultado: Praticamente um empate, mesmo que eu seja um pouco mais a favor da abordagem de marcadores do LLaMA.
- Alerta 2: Quanto é 8888×3+10?
Resultado: Ambos os chatbots deram a resposta correta.
- Solicitação 3: Escreva um pequeno programa em Python que simule um jogo simples de lançamento de dados. O programa deve permitir ao usuário especificar o número de dados, o número de lados de cada dado e quantas vezes deseja lançar. O programa deve então exibir os resultados de cada lançamento.
Resultado: Ambos os chatbots produziram código funcional.
Uma ressalva digna de nota é que nem o GPT-3.5 nem o LLaMA 3 podem acessar a Internet para buscar informações recentes. Perguntar a ambos os modelos sobre o SoC do Pixel 8, por exemplo, rendeu respostas que pareciam confiantes, mas completamente imprecisas. Se você fizer perguntas factuais, eu aceitaria as respostas do modelo local com uma pitada de sal. Mas para tarefas criativas e até mesmo de programação, o LLaMA 3 tem um desempenho admirável.
Como baixar e executar o LLaMA 3 localmente
Calvin Wankhede / Autoridade Android
Como mencionei acima, o LLaMA 3 vem em dois tamanhos. O modelo LLaMA 3 8B não requer nada além de um computador semi-recente. Na verdade, executá-lo em meu desktop gerou respostas mais rápidas do que o ChatGPT ou qualquer chatbot online disponível hoje. Embora meu computador tenha uma GPU para jogos de gama média, o LLaMA 3 também funcionará perfeitamente em um laptop com hardware modesto. Caso em questão: ainda obtive respostas razoavelmente rápidas ao executá-lo em um MacBook Air M1 com 16 GB de RAM. É um hardware de quatro anos, mais antigo que o próprio ChatGPT!
Com esse histórico resolvido, você precisará de algum software para realmente interagir com o LLaMA 3. Isso ocorre porque, embora você possa baixar o modelo gratuitamente, o Meta não o oferece como um programa ou aplicativo que você pode simplesmente duplicar. -clique para executar. Graças à comunidade de código aberto, no entanto, temos vários frontends LLM diferentes disponíveis hoje.
Depois de experimentar alguns deles, eu recomendo o GPT4All, pois torna o processo de download e execução do LLaMA 3 o mais simples possível. Aqui está um guia rápido:
- Baixe GPT4All para seu computador Windows ou macOS e instale-o.
- Abra o aplicativo GPT4All e clique em Baixar modelos.
- Procure o modelo “LLaMA 3 Instruct” e clique Download. Este é o modelo 8B ajustado para conversas. O download pode demorar algum tempo dependendo da sua conexão com a internet.
- Assim que o download for concluído, feche o pop-up do navegador e selecione Instrução LLaMA 3 no menu suspenso do modelo.
- É isso aí – você está pronto para começar a conversar. Você deverá ver a tela mostrada acima. Basta digitar um prompt, pressionar Enter e esperar que o modelo gere sua resposta.
Meu desktop reconhecidamente poderoso pode gerar 50 tokens por segundo, o que supera facilmente a velocidade de resposta do ChatGPT. No entanto, executá-lo sem GPU rendeu apenas 5 tokens por segundo e exigiu pelo menos 16 GB de memória do sistema. Embora isso possa parecer lento, lembre-se de que os chatbots baseados em nuvem também aceleram durante períodos de alta demanda. Além disso, posso pelo menos ficar tranquilo sabendo que meus bate-papos nunca serão lidos por mais ninguém.