Close Menu
    What's Hot

    É não oficialmente oficial: data do Galaxy Unpacked revelada em teaser vazado da Samsung

    janeiro 30, 2026

    É não oficialmente oficial: data do Galaxy Unpacked revelada em teaser vazado da Samsung

    janeiro 30, 2026

    Melhor software de folha de pagamento para pequenas empresas

    janeiro 30, 2026
    Facebook X (Twitter) Instagram
    Rafas Geek
    • Tech

      Primeiro, olhe para dentro do novo Mercedes inteligente, onde os melhores assentos estão na parte de trás

      janeiro 29, 2026

      Redes móveis do Reino Unido avaliadas com um vencedor claro vencendo o campo

      janeiro 29, 2026

      O novo telefone Galaxy da Samsung parece incrível, mas custa mais que um MacBook Pro

      janeiro 29, 2026

      A Amazon oferece um grande motivo para abandonar seu antigo Echo e tentar algo melhor

      janeiro 29, 2026

      O Windows 10 mostra sinais de vida apesar da Microsoft encerrar o suporte

      janeiro 29, 2026
    • News

      É não oficialmente oficial: data do Galaxy Unpacked revelada em teaser vazado da Samsung

      janeiro 30, 2026

      É não oficialmente oficial: data do Galaxy Unpacked revelada em teaser vazado da Samsung

      janeiro 30, 2026

      Venda quente: duas ofertas interessantes de aspiradores de robôs Narwal para orçamentos diferentes

      janeiro 30, 2026

      A EFF tem um pedido simples para a Big Tech: criptografe já

      janeiro 30, 2026

      As regras de Wi-Fi de 6 GHz foram afrouxadas e dispositivos futuros podem se beneficiar

      janeiro 29, 2026
    • Negócios

      Melhor software de folha de pagamento para pequenas empresas

      janeiro 30, 2026

      Pubs terão desconto de 15% nas tarifas comerciais

      janeiro 27, 2026

      Como iniciar um negócio

      janeiro 20, 2026

      Enviando sua primeira autoavaliação como novo empresário individual

      janeiro 15, 2026

      Um guia para marketing por e-mail de sucesso

      janeiro 13, 2026
    • Mundo

      O Galaxy Z TriFold está pronto para o mercado dos EUA com essas ofertas

      dezembro 2, 2025

      Os telefones Samsung em um grande mercado receberão muitos utilitários de sistema

      novembro 14, 2025

      O Google Chrome é o pior navegador para quem não é técnico – eis o porquê

      outubro 25, 2025

      O Galaxy Z Flip 8 poderia usar um chip especial da Qualcomm com um pouco de molho extra da Samsung

      outubro 10, 2025

      Um dos melhores telefones de câmera de 2025 é obter uma sequência

      setembro 2, 2025
    • Contato
    Facebook X (Twitter) Instagram
    Rafas Geek
    Featured Markets

    Esta nova e simples técnica de prompt aumenta a precisão em LLMs em até 76% em tarefas sem raciocínio

    rafasgeekBy rafasgeekjaneiro 13, 2026Nenhum comentário8 Mins Read
    Facebook Twitter Pinterest LinkedIn Tumblr Email
    Share
    Facebook Twitter LinkedIn Pinterest Email





    No mundo caótico da otimização do Large Language Model (LLM), os engenheiros passaram os últimos anos desenvolvendo rituais cada vez mais esotéricos para obter melhores respostas.

    Nós vimos "Cadeia de Pensamento" (pedindo ao modelo para pensar passo a passo e frequentemente, mostrar aqueles "traços de raciocínio" para o usuário), "Chantagem Emocional" (dizer ao modelo que sua carreira depende da resposta, ou que é sendo acusado de má conduta sexual) e estruturas complexas de prompts multi-shot.

    Mas um novo artigo divulgado pelo Google Research sugere que podemos ter pensado demais nisso. Os pesquisadores descobriram que simplesmente repetir a consulta de entrada – literalmente copiar e colar o prompt para que apareça duas vezes – melhora consistentemente o desempenho nos principais modelos, incluindo Gemini, GPT-4o, Claude e DeepSeek.

    O jornal, intitulado "A repetição imediata melhora LLMs sem raciocínio," lançado no mês passado, pouco antes das férias, apresenta uma descoberta que é quase suspeitamente simples: para tarefas que não exigem etapas complexas de raciocínio, declarar o prompt duas vezes produz resultados significativamente melhores do que afirmá-lo uma vez.

    Melhor ainda, devido ao modo como a arquitetura do transformador funciona, isso "um truque estranho" vem com penalidade praticamente zero em termos de velocidade de geração.

    O ponto cego causal

    Para entender por que repetir uma pergunta torna um supercomputador mais inteligente, é necessário observar as limitações arquitetônicas do modelo padrão do Transformer.

    A maioria dos LLMs modernos são treinados como "causal" modelos de linguagem. Isso significa que eles processam o texto estritamente da esquerda para a direita. Quando o modelo está processando o quinto token da sua frase, ele pode "participar" (preste atenção) aos tokens 1 a 4, mas não tem conhecimento do token 6, porque ainda não aconteceu.

    Isso cria uma restrição fundamental na forma como os modelos entendem as consultas dos usuários. Como observam os autores, a ordem das informações é imensamente importante.

    Uma consulta formatada como <CONTEXT> <QUESTION> muitas vezes produz resultados diferentes dos <QUESTION> <CONTEXT> porque, neste último caso, o modelo lê a questão antes de saber o contexto ao qual deve aplicá-la.

    A repetição imediata quebra essa limitação, transformando uma entrada de <QUERY> em <QUERY><QUERY>.

    No momento em que o modelo começa a processar o segundo iteração da consulta, ela já foi "ler" a primeira iteração. Isso permite que os tokens da segunda cópia atendam a cada token da primeira cópia.

    Efetivamente, a segunda repetição desfruta de uma forma de atenção bidirecional – pode "olhe para trás" em toda a consulta para resolver ambigüidades ou recuperar detalhes específicos que podem ter sido perdidos em uma única passagem.

    Os benchmarks: 47 vitórias, 0 derrotas

    Os pesquisadores Yaniv Leviathan, Matan Kalman e Yossi Matias testaram essa hipótese em um conjunto de sete benchmarks populares, incluindo ARC, OpenBookOA, GSM8K e MMLU-Pro. Eles avaliaram sete modelos diferentes, desde modelos leves como Gemini 2.0 Flash Lite e GPT-4o-mini até pesos pesados ​​como Claude 3.7 Sonnet e DeepSeek V3. Ao perguntar aos modelos não para usar o raciocínio explícito (ou seja, apenas dar uma resposta direta), a repetição imediata venceu 47 dos 70 testes comparativos em relação à linha de base, com zero perdas. A equipe projetou um personalizado "NomeÍndice" benchmark, onde o modelo recebe uma lista de 50 nomes e é solicitado a identificar o 25º.

    • Desempenho de linha de base: Gemini 2.0 Flash-Lite teve uma pontuação sombria 21,33% precisão.

    • Com repetição: A precisão disparou para 97,33%.

    Este enorme salto ilustra a "ponto cego causal" perfeitamente. Em uma única passagem, o modelo pode perder o controle da contagem quando atingir o 25º nome. Na passagem repetida, o modelo efetivamente tem a lista inteira em seu "memória de trabalho" antes de tentar resolver a tarefa de recuperação.

    O "Almoço Grátis" de latência

    Normalmente, adicionar texto a um prompt aumenta os custos e a latência. Se você dobrar a entrada, certamente dobrará o tempo de espera? Surpreendentemente, não. O artigo demonstra que a repetição imediata é essencialmente "livre" em relação à latência percebida pelo usuário. O processamento LLM é dividido em duas etapas:

    1. Pré-preenchimento: O modelo processa o prompt de entrada. Isto é altamente paralelizável; a GPU pode processar toda a matriz de prompt simultaneamente.

    2. Geração (Decodificação): O modelo gera a resposta um token por vez. Isso é serial e lento.

    A repetição imediata apenas aumenta o trabalho no pré-preencher estágio. Como o hardware moderno lida com o pré-preenchimento de forma tão eficiente, o usuário mal percebe a diferença. Os pesquisadores descobriram que repetir o prompt não não aumentou o comprimento da resposta gerada, nem aumentou o "hora do primeiro token" latência para a maioria dos modelos. As únicas exceções foram os modelos da Anthropic (Claude Haiku e Sonnet) em solicitações extremamente longas, onde o estágio de pré-preenchimento acabou atingindo um gargalo. Mas, para a grande maioria dos casos de uso, a técnica melhora a precisão sem diminuir a velocidade da experiência de chat.

    Raciocínio vs. Repetição

    Há uma ressalva: esta técnica é principalmente para "não-raciocínio" tarefas – cenários onde você deseja uma resposta direta em vez de uma derivação passo a passo.

    Quando os pesquisadores testaram a repetição imediata combinada com "Cadeia de Pensamento" (pedindo ao modelo para "pense passo a passo"), os ganhos desapareceram em grande parte, mostrando resultados neutros a ligeiramente positivos (5 vitórias, 1 derrota, 22 empates).

    Os autores postulam que os próprios modelos de raciocínio executam naturalmente uma versão de repetição. Quando um modelo "pensa," muitas vezes reafirma a premissa da questão no resultado gerado antes de resolvê-la. Portanto, repetir explicitamente o prompt na entrada torna-se redundante.

    Entretanto, para aplicações onde você precisa de uma resposta rápida e direta, sem a verbosidade (e o custo) de um longo rastreamento de raciocínio, a repetição imediata oferece uma alternativa poderosa.

    Implementação Estratégica para a Empresa

    Para a liderança empresarial, esta pesquisa representa o que há de mais raro no desenvolvimento de IA: um "livre" otimização. Mas a capitalização requer nuances; esta não é uma configuração para alternar cegamente entre toda a organização, mas sim um ajuste tático que se espalha pela engenharia, orquestração e segurança.

    Para líderes técnicos que equilibram o eterno triângulo de velocidade, qualidade e custo, a repetição imediata oferece uma maneira de superar sua classe de peso. Os dados mostram que modelos menores e mais rápidos – como o Gemini 2.0 Flash Lite – podem alcançar uma precisão de recuperação quase perfeita (saltando de 21,33% para 97,33%) simplesmente processando a entrada duas vezes.

    Isto muda o cálculo para a seleção do modelo: antes de atualizar para um modelo maior e mais caro para resolver um gargalo de precisão, os engenheiros devem primeiro testar se a simples repetição permite a sua atual "Leve" modelos para fechar a lacuna. É uma estratégia potencial para manter a velocidade e os benefícios de custo da infraestrutura leve, sem sacrificar o desempenho nas tarefas de extração e recuperação.

    Essa lógica naturalmente transfere a carga para a camada de orquestração. Para aqueles que gerenciam o middleware e os gateways de API que unem os aplicativos de IA, a repetição imediata provavelmente deve se tornar um componente padrão e invisível da lógica do pipeline, em vez de um comportamento do usuário.

    No entanto, como a técnica é neutra para tarefas de raciocínio pesado, mas altamente eficaz para respostas diretas, ela requer aplicação condicional. Um chicote de orquestração inteligente identificaria automaticamente as solicitações roteadas para endpoints sem raciocínio — como extração de entidade, classificação ou perguntas e respostas simples — e duplicaria o prompt antes de passá-lo para o modelo. Isto otimiza o desempenho ao nível da infraestrutura, proporcionando melhores resultados sem exigir ação dos utilizadores finais ou aumentar o orçamento de geração.

    Finalmente, esta atenção acrescida introduz uma nova variável para as equipas de segurança.

    Se a repetição de um prompt esclarece a intenção do usuário em relação ao modelo, é lógico que as intenções maliciosas também possam ser esclarecidas. Os diretores de segurança precisarão atualizar seus protocolos de red-team para testar "injeção repetida" ataques – verificando se a repetição de um comando de jailbreak (por exemplo, "Ignore as instruções anteriores") faz o modelo "participar" à violação de forma mais eficaz. Por outro lado, este mecanismo oferece uma nova ferramenta defensiva: repetir prompts do sistema.

    A indicação de guardas de segurança duas vezes no início da janela de contexto poderia forçar o modelo a atender às restrições de segurança com mais rigor, agindo como um reforço de baixo custo para operações de segurança robustas.

    Por que isso é importante

    Esta pesquisa destaca uma visão crucial para os desenvolvedores que desenvolvem LLMs: nossos modelos atuais ainda estão profundamente limitados por sua natureza unidirecional. Enquanto esperamos por novas arquiteturas que possam resolver a cegueira causal, soluções alternativas rudimentares, mas eficazes, como a repetição imediata, oferecem valor imediato. Os autores sugerem que isso pode se tornar um comportamento padrão para sistemas futuros.

    Em breve poderemos ver mecanismos de inferência que duplicam silenciosamente nossos prompts em segundo plano antes de enviá-los ao modelo, ou "Raciocínio" modelos treinados para internalizar essa estratégia de repetição para serem mais eficientes. Por enquanto, se você está lutando para fazer um modelo seguir instruções complexas ou recuperar detalhes específicos de um documento longo, a solução pode não ser melhor. Talvez você só precise dizer isso novamente.



    até aumenta está LLMs nova precisão prompt raciocínio sem simples tarefas técnica
    Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
    rafasgeek
    • Website

    Related Posts

    A EFF tem um pedido simples para a Big Tech: criptografe já

    janeiro 30, 2026

    Primeiro, olhe para dentro do novo Mercedes inteligente, onde os melhores assentos estão na parte de trás

    janeiro 29, 2026

    Este anel inteligente parece um smartwatch e até funciona como um

    janeiro 29, 2026

    Comments are closed.

    Economy News
    News

    É não oficialmente oficial: data do Galaxy Unpacked revelada em teaser vazado da Samsung

    By rafasgeekjaneiro 30, 20260

    C. Scott Brown / Autoridade AndroidDR O informante de confiança Evan Blass vazou um pôster…

    É não oficialmente oficial: data do Galaxy Unpacked revelada em teaser vazado da Samsung

    janeiro 30, 2026

    Melhor software de folha de pagamento para pequenas empresas

    janeiro 30, 2026
    Top Trending
    News

    É não oficialmente oficial: data do Galaxy Unpacked revelada em teaser vazado da Samsung

    By rafasgeekjaneiro 30, 20260

    C. Scott Brown / Autoridade AndroidDR O informante de confiança Evan Blass…

    News

    É não oficialmente oficial: data do Galaxy Unpacked revelada em teaser vazado da Samsung

    By rafasgeekjaneiro 30, 20260

    C. Scott Brown / Autoridade AndroidDR O informante de confiança Evan Blass…

    Accounting

    Melhor software de folha de pagamento para pequenas empresas

    By rafasgeekjaneiro 30, 20260

    A folha de pagamento pode ser muito mais fácil se você tiver…

    Subscribe to News

    Receba as últimas notícias esportivas do NewsSite sobre o mundo, esportes e política.

    Advertisement

    Todos os dias, uma nova tecnologia é lançada, e eu Rafas Geek, estou aqui para divulgar para o mundo, o que à de novo!

    Siga-nos nas redes sociais:

    Facebook X (Twitter) Instagram YouTube

    Subscribe to Updates

    Receba as últimas notícias criativas do FooBar sobre arte, design e negócios.

    Facebook X (Twitter) Instagram Pinterest
    • Home
    • Tecnologia
    • Entretenimento
    • News
    © 2026 Rafas Geek - Tudo sobre tecnologia 👨🏻‍💻 Rafas Geek.

    Type above and press Enter to search. Press Esc to cancel.