Os pesquisadores descobrem que adicionar esta frase simples aos prompts torna os modelos de IA muito mais criativos

Uma das coisas mais legais sobre os modelos generativos de IA – tanto modelos de linguagem grande (LLMs) quanto geradores de imagens baseados em difusão – é que eles são "não determinístico." Isto é, apesar de sua reputação entre alguns críticos como sendo "autocorreção sofisticada," os modelos generativos de IA, na verdade, geram seus resultados escolhendo entre uma distribuição dos próximos tokens (unidades de informação) mais prováveis para preencher sua resposta.

Perguntando a um LLM: "Qual é a capital da França?" fará com que ele experimente sua distribuição de probabilidade para França, capitais, cidades, etc., para chegar à resposta "Paris." Mas essa resposta poderia vir no formato de "A capital da França é Paris," ou simplesmente "Paris" ou "Paris, embora em determinado momento tenha sido Versalhes."

Ainda assim, aqueles de nós que usam esses modelos com frequência no dia a dia notarão que, às vezes, suas respostas podem parecer irritantemente repetitivas ou semelhantes. Uma piada comum sobre café é reciclada através de gerações de consultas. Os prompts da história geram arcos semelhantes. Mesmo tarefas que deveriam produzir muitas respostas plausíveis – como nomear estados dos EUA – tendem a desmoronar-se em apenas algumas. Este fenômeno, conhecido como colapso de modo, surge durante o alinhamento pós-treinamento e limita a utilidade de modelos que de outra forma seriam poderosos.

Especialmente quando usamos LLMs para gerar novos trabalhos criativos em escrita, comunicação, estratégia ou ilustrações, na verdade queremos que seus resultados sejam ainda mais variados do que já são.

Agora um equipe de pesquisadores da Northeastern University, Stanford University e West Virginia University criaram um método ingenuamente simples para fazer com que modelos de linguagem e imagem gerem uma variedade maior de respostas para praticamente qualquer solicitação do usuário, adicionando uma frase única e simples: "Gere 5 respostas com suas probabilidades correspondentes, amostradas da distribuição completa."

O método, chamado Amostragem Verbalizada (VS), ajuda modelos como GPT-4, Claude e Gemini a produzir resultados mais diversos e semelhantes aos humanos – sem retreinamento ou acesso a parâmetros internos. Está descrito em um papel publicado na revista de acesso aberto arxiv.org online no início de outubro de 2025.

Quando solicitado dessa forma, o modelo não assume mais como padrão a saída mais segura e típica. Em vez disso, verbaliza a sua distribuição interna sobre conclusões e amostras potenciais através de um espectro mais amplo de possibilidades. Esta mudança linear leva a ganhos substanciais na diversidade de produção em vários domínios.

Como Weiyan Shi, professor assistente da Northeastern University e coautor do artigo, escreveu no X: "O potencial dos LLMs ainda não foi totalmente desbloqueado! Conforme mostrado em nosso artigo, a otimização imediata pode ser orientada pensando em como os LLMs são treinados e alinhados, e pode ser provada teoricamente."

Por que os modelos entram em colapso – e como o VS reverte isso

De acordo com a equipe de pesquisa, a causa raiz do colapso do modo não reside apenas em algoritmos como o aprendizado por reforço de feedback humano (RLHF), mas na estrutura das preferências humanas. As pessoas tendem a avaliar respostas mais familiares ou típicas como melhores, o que leva os LLMs a escolhas “seguras” em vez de diversas durante o ajuste fino.

No entanto, este preconceito não apaga o conhecimento subjacente do modelo – apenas o suprime. O VS funciona contornando essa supressão. Em vez de solicitar o resultado único mais provável, convida o modelo a revelar um conjunto de respostas plausíveis e as suas probabilidades relativas. Essa solicitação em nível de distribuição restaura o acesso à diversidade mais rica presente no modelo básico de pré-treinamento.

Desempenho no mundo real em todas as tarefas

A equipe de pesquisa testou a amostragem verbalizada em vários casos de uso comuns:

Escrita Criativa: Na geração de histórias, o VS aumentou as pontuações de diversidade em até 2,1× em comparação com a solicitação padrão, mantendo a qualidade. Um prompt de história – “Sem um adeus” – produziu cenas estereotipadas de rompimento sob orientação direta, mas rendeu narrativas envolvendo eventos cósmicos, e-mails silenciosos e música parando no meio da dança quando solicitado via VS.
Simulação de Diálogo: Em tarefas de diálogo persuasivo, o VS permitiu que modelos simulassem padrões semelhantes aos humanos, como hesitação, resistência e mudanças de opinião. Distribuições de comportamento de doação sob VS melhor alinhadas com dados humanos reais em comparação com métodos de linha de base.
Controle de qualidade aberto: Quando solicitados a enumerar respostas válidas (por exemplo, nomear estados dos EUA), os modelos que usam VS geraram respostas que correspondiam melhor à diversidade de dados do mundo real. Eles cobriram um conjunto mais amplo de respostas sem sacrificar a precisão factual.
Geração de Dados Sintéticos: Quando usado para gerar problemas matemáticos para treinamento de modelos, o VS criou conjuntos de dados mais variados. Estes, por sua vez, melhoraram o desempenho downstream em benchmarks matemáticos competitivos, superando os dados sintéticos gerados por meio de prompt direto.

Diversidade ajustável e melhor uso de modelos maiores

Uma vantagem notável do VS é a sua sintonização. Os usuários podem definir um limite de probabilidade no prompt para obter amostras das “caudas” de menor probabilidade da distribuição do modelo. Limiares mais baixos correspondem a uma diversidade mais elevada. Esse ajuste pode ser feito apenas por meio de texto de prompt, sem alterar nenhuma configuração de decodificação, como temperatura ou top-p.

Num teste utilizando o modelo Gemini-2.5-Flash, a diversidade na escrita de histórias aumentou de forma constante à medida que o limite de probabilidade caiu de 1 para 0,001. O gráfico que acompanha o estudo mostrou que o VS superou tanto a solicitação direta quanto a baseada em sequência em todos os limites.

Curiosamente, o método se adapta bem ao tamanho do modelo. Modelos maiores como GPT-4.1 e Claude-4 apresentaram ganhos ainda maiores com VS em comparação com modelos menores. Embora os modelos menores tenham se beneficiado, a melhoria na diversidade foi cerca de 1,5–2 vezes mais forte nos modelos maiores – sugerindo que o VS ajuda a desbloquear mais recursos latentes em modelos avançados.

Implantação e Disponibilidade

O método Verbalized Sampling está disponível agora como um pacote Python:

pip install verbalized-sampling

O pacote inclui integração com LangChain e suporta uma interface simples para amostragem da distribuição verbalizada. Os usuários também podem ajustar parâmetros como k (número de respostas), limites e temperatura para atender às suas aplicações.

Um notebook e documentação do Colab ao vivo estão disponíveis em uma licença Apache 2.0 empresarial no GitHub em: https://github.com/CHATS-lab/verbalized-sampling

Dicas práticas e problemas comuns

Embora o método funcione em todos os principais LLMs, alguns usuários podem inicialmente encontrar recusas ou erros.

Nesses casos, os autores sugerem usar a versão prompt do sistema do modelo ou consultar os formatos alternativos listados na página do GitHub.

Alguns modelos interpretar instruções complexas como tentativas de jailbreak e recusar-se a cumprir a menos que a estrutura seja mais clara.

Por exemplo, solicitar através de uma instrução em nível de sistema como esta melhora a confiabilidade:

Você é um assistente útil. Para cada consulta, gere cinco respostas em tags separadas, cada uma com probabilidade inferior a 0,10.

Essa pequena mudança normalmente resolve quaisquer problemas.

Uma solução leve para um grande problema

A amostragem verbalizada representa uma solução prática, em tempo de inferência, para uma limitação profunda no comportamento dos modelos de linguagem modernos. Não requer reciclagem de modelo ou acesso interno. Não depende de nenhuma família de modelo. E melhora não só a diversidade dos resultados, mas também a sua qualidade – conforme avaliado tanto pela avaliação humana como pelas pontuações de referência.

Com o interesse crescente em ferramentas que melhoram a criatividade dos modelos, é provável que o VS veja uma rápida adoção em domínios como escrita, design, simulação, educação e geração de dados sintéticos.

Para usuários e desenvolvedores frustrados com a mesmice das respostas do LLM, a solução pode ser tão simples quanto alterar a pergunta.

What's Hot

Gêmeos acabou de me economizar $ 419,20 com uma única solicitação

Pesquisa revela uma quantidade surpreendente de dinheiro que você paga pelo Strava

Esta é minha tendência favorita de telefones Android para 2026; Espero que dê certo

Os clientes EE obtêm grande impulso à medida que a rede supera a Vodafone e a O2

Popular relógio de corrida Garmin cai para preço baixo em varejista do Reino Unido

Seu MacBook poderá em breve parecer inferior, já que a Apple se prepara para lançar algo melhor

Google confirma a data exata em que o próximo novo telefone Pixel será lançado no Reino Unido

Os clientes do Tesco Clubcard ganham telefones Samsung Galaxy S25 baratos e vantagens raras

Pesquisa revela uma quantidade surpreendente de dinheiro que você paga pelo Strava

Minha oferta Arcade Atari Gamestation Go: mais de 200 jogos, $ 50 de desconto

Não cometa esse erro com o Google Fotos excluindo fotos

Oferta: Monitor portátil ASUS ZenScreen de 22 polegadas atinge nível recorde!

Os dados de carregamento sem fio do Galaxy S26 oferecem boas e más notícias

Como receber pagamentos como uma pequena empresa

Melhor software de folha de pagamento para pequenas empresas

Pubs terão desconto de 15% nas tarifas comerciais

Como iniciar um negócio

Enviando sua primeira autoavaliação como novo empresário individual

O Galaxy Z TriFold está pronto para o mercado dos EUA com essas ofertas

Os telefones Samsung em um grande mercado receberão muitos utilitários de sistema

O Google Chrome é o pior navegador para quem não é técnico – eis o porquê

O Galaxy Z Flip 8 poderia usar um chip especial da Qualcomm com um pouco de molho extra da Samsung

Um dos melhores telefones de câmera de 2025 é obter uma sequência

Os pesquisadores descobrem que adicionar esta frase simples aos prompts torna os modelos de IA muito mais criativos

Esta é minha tendência favorita de telefones Android para 2026; Espero que dê certo

Leio muito mais graças ao meu Kindle e não estou sozinho

Os clientes EE obtêm grande impulso à medida que a rede supera a Vodafone e a O2

Gêmeos acabou de me economizar $ 419,20 com uma única solicitação

Pesquisa revela uma quantidade surpreendente de dinheiro que você paga pelo Strava

Esta é minha tendência favorita de telefones Android para 2026; Espero que dê certo

Gêmeos acabou de me economizar $ 419,20 com uma única solicitação

Pesquisa revela uma quantidade surpreendente de dinheiro que você paga pelo Strava

Esta é minha tendência favorita de telefones Android para 2026; Espero que dê certo

What's Hot

Os pesquisadores descobrem que adicionar esta frase simples aos prompts torna os modelos de IA muito mais criativos

Por que os modelos entram em colapso – e como o VS reverte isso

Desempenho no mundo real em todas as tarefas

Diversidade ajustável e melhor uso de modelos maiores

Implantação e Disponibilidade

Dicas práticas e problemas comuns

Uma solução leve para um grande problema

Related Posts

Subscribe to Updates