O novo método de 'treinamento em tempo de teste' permite que a IA continue aprendendo sem explodir os custos de inferência

Um novo estudo realizado por pesquisadores da Universidade de Stanford e da Nvidia propõe uma maneira de os modelos de IA continuarem aprendendo após a implantação – sem aumentar os custos de inferência. Para agentes corporativos que precisam digerir documentos, tickets e logs longos, esta é uma tentativa de obter “memória longa” sem prestar atenção aos custos que aumentam com a extensão do contexto.

A abordagem, chamada “Treinamento de ponta a ponta para teste”(TTT-E2E), reformula a modelagem de linguagem como um problema de aprendizagem contínua: em vez de memorizar fatos durante o pré-treinamento, os modelos aprendem como se adaptar em tempo real à medida que processam novas informações.

O resultado é um Transformer que pode corresponder à precisão de longo contexto de modelos de atenção total enquanto funciona com eficiência próxima da RNN – um avanço potencial para cargas de trabalho empresariais onde a duração do contexto está colidindo com o custo.

A compensação entre precisão e eficiência

Para os desenvolvedores que criam sistemas de IA para tarefas de documentos longos, a escolha da arquitetura do modelo geralmente envolve uma dolorosa compensação entre precisão e eficiência.

De um lado estão os Transformers com total autoatenção, atualmente o padrão ouro de precisão. Eles são projetados para verificar as chaves e valores de todos os tokens anteriores em busca de cada novo token gerado, proporcionando-lhes uma recuperação sem perdas. No entanto, essa precisão tem um custo elevado: o custo computacional por token aumenta significativamente com o comprimento do contexto.

Do outro lado estão os modelos de sequência de tempo linear, que mantêm os custos de inferência constantes, mas lutam para reter informações em contextos muito longos.

Outras abordagens tentam dividir a diferença – atenção em janela deslizante, híbridos que misturam atenção com recorrência e outros truques de eficiência – mas ainda tendem a ficar aquém da atenção total na modelagem de linguagem difícil.

A aposta dos pesquisadores é que o ingrediente que falta é a compressão: em vez de tentar lembrar exatamente cada token, os modelos devem destilar o que importa em um estado compacto.

Treinamento em tempo de teste

A principal inovação do artigo é a aplicação do Test-Time Training (TTT) à modelagem de linguagem. Isso transforma o modelo de um banco de dados estático em um aluno flexível.

Na implantação padrão de IA, os modelos são treinados para minimizar perdas e depois implantados como artefatos congelados. Se você tentar fazer com que um modelo estático aprenda durante a implantação, ele normalmente terá um desempenho ruim porque nunca foi treinado para se atualizar com eficiência.

Os pesquisadores resolvem isso mudando do pré-treinamento padrão (ensinando os fatos do modelo) para o meta-aprendizado (ensinando o modelo como aprender). O objetivo é otimizar o modelo "inicialização" para que possa absorver novas informações rapidamente quando for ao ar.

O processo envolve a simulação do aprendizado em tempo de inferência durante a fase de treinamento:

Loop interno (aprender): Durante o treinamento, o modelo trata o texto como um fluxo e realiza pequenas atualizações temporárias à medida que prevê o próximo token – simulando como ele se adaptaria na inferência.
Loop externo (ensine a aprender): o sistema atualiza a inicialização do modelo para que a próxima rodada de adaptação de streaming se torne mais rápida e precisa.

Embora a ideia de um modelo mudar seus pesos durante a implantação possa parecer arriscada para líderes empresariais focados em confiabilidade, o coautor Yu Sun argumenta que é matematicamente mais seguro do que parece.

“Você deveria pensar no modelo como um RNN com um enorme estado oculto”, diz Sun. Ele observa que se uma empresa se sentir segura ao implantar Transformers ou RNNs padrão, o perfil de estabilidade do TTT é comparável.

Arquitetura de memória dupla

Para implementar o TTT-E2E, os pesquisadores modificaram a arquitetura padrão do Transformer para suportar esse novo paradigma de aprendizagem, criando uma hierarquia que separa o tratamento barato de contexto de curto prazo das atualizações seletivas de memória de longo prazo.

TO modelo usa atenção de janela deslizante em vez de atenção total. Isso funciona como o modelo "memória de trabalho," olhando apenas para uma janela fixa de tokens recentes para lidar com sintaxe imediata e referências locais. Isto garante que o custo de processamento de um novo token permaneça constante, em vez de crescer à medida que o contexto se expande.
O modelo emprega “atualizações de peso direcionadas”. Embora os modelos padrão tenham pesos completamente congelados durante o uso, o TTT-E2E designa seções específicas (camadas Perceptron multicamadas nos 25% finais dos blocos do modelo) como mutáveis.
A arquitetura usa um “armazenamento de trilha dupla” para evitar que o modelo se esqueça seu treinamento geral enquanto aprende um novo documento. Cada bloco atualizável contém dois componentes MLP: uma camada estática que contém conhecimento geral pré-treinado e uma camada dinâmica que é atualizada em tempo real para armazenar o contexto do documento atual.

A inovação está na forma como o modelo lida com as informações que caem da janela deslizante. Em um modelo de janela deslizante padrão, quando um token desaparece da vista, ele é esquecido. O TTT-E2E evita isso por meio de compactação. À medida que a janela se move, o modelo usa a previsão do próximo token para "compressa" a passagem de informações diretamente para os pesos das camadas MLP dinâmicas. Isto consolida a essência e os fatos das partes anteriores do documento na estrutura do modelo, servindo como uma memória de longo prazo.

TTT-E2E em ação

O resultado principal: TTT-E2E continua melhorando à medida que o comprimento do contexto aumenta – igualando ou superando a atenção total – enquanto as linhas de base eficientes se estabilizam após aproximadamente 32.000 tokens.

Para validar a sua abordagem, os investigadores treinaram modelos que variam entre 125 milhões e 3 mil milhões de parâmetros. Eles empregaram um processo de treinamento em dois estágios: pré-treinamento em contextos de 8.000 tokens e ajuste fino em contextos de 128.000 tokens. Esses modelos foram testados em linhas de base robustas, incluindo transformadores com atenção total, transformadores com atenção de janela deslizante (SWA), modelos híbridos (Mamba 2 e Gated DeltaNet) e TTT-KVB (uma forma anterior de treinamento em tempo de teste).

Os resultados destacam um avanço significativo no dimensionamento. O experimento mais crítico testou o desempenho à medida que o documento de entrada cresceu de 8.000 para 128.000 tokens. O Full Attention Transformer, padrão ouro, continuou a melhorar seu desempenho (menor perda) à medida que o contexto crescia. Em contraste, linhas de base eficientes como Mamba 2, Gated DeltaNet e SWA atingiram um limite, com seu desempenho degradando ou estabilizando após 32.000 tokens.

O novo método TTT-E2E foi dimensionado com sucesso com comprimento de contexto, imitando o comportamento de Atenção Total. Nos experimentos usando modelos de parâmetros 3B, o TTT-E2E realmente manteve uma perplexidade menor (melhor desempenho) do que Atenção Total em toda a janela de contexto.

É fundamental que esse desempenho não tenha sido feito às custas da velocidade. Na latência de inferência, o TTT-E2E correspondeu à eficiência dos RNNs. Com um comprimento de contexto de 128 mil tokens, o TTT-E2E foi 2,7x mais rápido que o Full-Attention Transformer no hardware Nvidia H100.

Crucialmente para adoção, a Sun observa que os modelos TTT podem ser implantados para inferência hoje na infraestrutura padrão do Transformer para atingir essas acelerações. No entanto, ele adverte que o lado do treinamento da equação (especificamente o loop externo) é atualmente mais complexo e mais lento do que os métodos padrão, representando um obstáculo que ainda precisa de otimização de engenharia.

Os benefícios tornam-se ainda mais drásticos à medida que os dados aumentam. Sun argumenta que a vantagem deveria aumentar ainda mais em contextos de milhões de tokens, embora esses números sejam projeções, e não as implantações de referência atuais.

No entanto, a abordagem tem limitações específicas enraizadas na sua filosofia de design. Os pesquisadores realizaram um "Agulha no palheiro" teste, que exige que o modelo recupere uma informação específica e isolada (como uma senha) escondida em um grande bloco de texto. Nesta avaliação, o Full Attention superou dramaticamente todos os outros métodos, incluindo o TTT-E2E.

Isso ocorre porque o Full Attention depende de um cache que permite uma recuperação quase sem perdas de detalhes específicos, enquanto o TTT-E2E depende da compactação. A compressão captura perfeitamente a intuição e as informações essenciais, mas pode perder detalhes específicos e aleatórios que não se enquadram nos padrões aprendidos.

Esta distinção tem implicações importantes para pipelines de dados empresariais, especificamente RAG. Sun sugere que o TTT não tornará o RAG obsoleto, mas o redefinirá. Ele compara o TTT a "atualizando o cérebro humano" com conhecimento geral, enquanto o RAG continuará sendo uma ferramenta necessária para precisão, "semelhante a como os humanos ainda precisam anotar coisas em um bloco de notas." Para as equipes empresariais, a conclusão é que o TTT reduz a frequência com que você precisa de recuperação, mas não elimina a necessidade de memória externa exata.

Embora a técnica tenha sido demonstrada na arquitetura Transformer, os pesquisadores observam que “em princípio, o TTT pode ser aplicado a qualquer arquitetura básica” que permita a separação dos componentes de memória de longo e curto prazo.

“Acreditamos que estas duas classes de memória continuarão a complementar-se," concluíram os pesquisadores.

Olhando para o futuro, a Sun prevê uma mudança de paradigma em que a forma primária de memória de IA será altamente comprimida em vez de exata. Embora os modelos mantenham uma "razoável" janela de recuperação perfeita de cerca de 128.000 tokens, ele acredita que as arquiteturas TTT acabarão por desbloquear um "memória compactada de bilhões de tokens," fundamentalmente mudando a forma como os agentes corporativos equilibram recall, custo e duração do contexto.

What's Hot

Este poderoso carregador Satechi de 100 W custa apenas US$ 14,99!

Google estende atualizações do sistema operacional Android do Pixel Tablet por mais 2 anos

Economize incríveis $ 553 no incrível LG Smart Monitor Swing

Primeiro, olhe para dentro do novo Mercedes inteligente, onde os melhores assentos estão na parte de trás

Redes móveis do Reino Unido avaliadas com um vencedor claro vencendo o campo

O novo telefone Galaxy da Samsung parece incrível, mas custa mais que um MacBook Pro

A Amazon oferece um grande motivo para abandonar seu antigo Echo e tentar algo melhor

O Windows 10 mostra sinais de vida apesar da Microsoft encerrar o suporte

Este poderoso carregador Satechi de 100 W custa apenas US$ 14,99!

Google estende atualizações do sistema operacional Android do Pixel Tablet por mais 2 anos

Economize incríveis $ 553 no incrível LG Smart Monitor Swing

Economize incríveis $ 553 no incrível LG Smart Monitor Swing

Gêmeos agora pode ver todas as partes de sua agenda lotada

Pubs terão desconto de 15% nas tarifas comerciais

Como iniciar um negócio

Enviando sua primeira autoavaliação como novo empresário individual

Um guia para marketing por e-mail de sucesso

7 melhores softwares de marketing por e-mail para empresas do Reino Unido

O Galaxy Z TriFold está pronto para o mercado dos EUA com essas ofertas

Os telefones Samsung em um grande mercado receberão muitos utilitários de sistema

O Google Chrome é o pior navegador para quem não é técnico – eis o porquê

O Galaxy Z Flip 8 poderia usar um chip especial da Qualcomm com um pouco de molho extra da Samsung

Um dos melhores telefones de câmera de 2025 é obter uma sequência

O novo método de ‘treinamento em tempo de teste’ permite que a IA continue aprendendo sem explodir os custos de inferência

Primeiro, olhe para dentro do novo Mercedes inteligente, onde os melhores assentos estão na parte de trás

Nunca comprarei fones de ouvido sem esse recurso do Galaxy Buds

Redes móveis do Reino Unido avaliadas com um vencedor claro vencendo o campo

Este poderoso carregador Satechi de 100 W custa apenas US$ 14,99!

Google estende atualizações do sistema operacional Android do Pixel Tablet por mais 2 anos

Economize incríveis $ 553 no incrível LG Smart Monitor Swing

Este poderoso carregador Satechi de 100 W custa apenas US$ 14,99!

Google estende atualizações do sistema operacional Android do Pixel Tablet por mais 2 anos

Economize incríveis $ 553 no incrível LG Smart Monitor Swing

What's Hot

O novo método de ‘treinamento em tempo de teste’ permite que a IA continue aprendendo sem explodir os custos de inferência

A compensação entre precisão e eficiência

Treinamento em tempo de teste

Arquitetura de memória dupla

TTT-E2E em ação

Related Posts

Subscribe to Updates