
Pesquisa Nousa startup de inteligência artificial com sede em São Francisco, lançou na terça-feira um sistema de raciocínio matemático de código aberto chamado Nós 1 que alcançou um desempenho humano próximo da elite no concurso deste ano Competição de Matemática William Lowell Putnamum dos concursos de graduação em matemática mais prestigiados e notoriamente difíceis do mundo.
O Putnam é conhecido por sua dificuldade: embora a pontuação perfeita seja 120, a pontuação máxima deste ano foi 90, e a mediana foi de apenas 2. Nomos 1, por outro lado, marcou 87 pontos – um resultado que teria ficado em segundo lugar entre 3.988 participantes na competição de 2024, de acordo com a empresa.
O lançamento marca um ponto de inflexão na corrida cada vez mais acelerada para construir sistemas de IA capazes de raciocínio matemático sofisticado. Ao contrário dos modelos massivos e de uso intensivo de computação implantados pelas principais empresas de tecnologia, Nós 1 alcança seus resultados com uma arquitetura relativamente compacta: 30 bilhões de parâmetros com cerca de 3 bilhões ativos a qualquer momento, usando um design misto de especialistas baseado no Alibaba Modelo Qwen3.
"Esta pontuação seria classificada em 2/3988 em 2024 e marca nosso primeiro passo com Hillclimb AI para a criação de um matemático SOTA AI," Pesquisa Nous anunciado nas redes sociais terça-feira.
O mesmo modelo básico obteve 24 pontos sem o treinamento especializado da Nous Research
Talvez o mais impressionante seja a distância entre Nós 1 e seu modelo básico. Quando a Nous Research executou o mesmo Modelo Qwen3-30B-A3B-Pensando-2507 por meio de um conjunto de testes idêntico, obteve apenas 24 pontos em 120 – um resultado que ressalta a importância crítica da otimização pós-treinamento e de técnicas de raciocínio especializadas em escala de modelo bruto.
"Nomos 1 alcançou 87/120 com 8 pontuações perfeitas," afirmou a empresa, observando que a diferença de desempenho "deve-se em grande parte ao pós-treinamento e à qualidade dos dados, e não ao aproveitamento."
Os resultados foram verificados através de classificação cega por um especialista humano que já havia terminado entre os 200 primeiros no Putnam. Pesquisa Nous forneceu os envios anonimizados ao avaliador e, em seguida, publicou o conjunto completo de arquivos anonimizados e os runbooks usados para gerá-los no GitHub.
Por que a competição Putnam é considerada o teste definitivo de raciocínio matemático
O Competição de Matemática William Lowell Putnam é uma competição anual de matemática para estudantes universitários matriculados em instituições de ensino superior nos Estados Unidos e Canadá. É amplamente considerada a competição de matemática de nível universitário de maior prestígio do mundo.
A notoriamente brutal Competição de Matemática William Lowell Putnam é mais um evento esportivo matemático do que um teste acadêmico. O exame consiste em duas sessões de 3 horas separadas por um intervalo de 2 horas. Há um total de 12 questões a serem resolvidas, 6 para cada sessão. Cada questão vale 10 pontos, totalizando 120 pontos.
As perguntas do Putnam não são do tipo que aparecem em exames regulares ou livros didáticos. Eles se parecem mais com quebra-cabeças do que com cálculos, muitas vezes exigindo que os alunos encontrem maneiras diferentes de representar as coisas antes que uma solução possa ser revelada.
No ano passado, quase 4.000 estudantes em todo o continente escreveram o Putnam. Sessenta e um por cento marcaram três pontos ou menos, de acordo com o Associação Matemática da Américaque organiza a competição. A pontuação máxima foi 90 de 120.
Muitos Putnam Fellows tornaram-se pesquisadores ilustres em matemática e outras áreas, incluindo três medalhistas Fields – John Milnor, David Mumford e Daniel Quillen – e dois ganhadores do Nobel de física – Richard Feynman e Kenneth Wilson.
Por dentro do sistema de raciocínio de duas fases que impulsiona as descobertas matemáticas do Nomos 1
Nós 1 é uma especialização de Qwen Modelo de pensamento Qwen3-30B-A3Botimizado para resolução de problemas matemáticos e redação de provas em linguagem natural. O sistema foi desenvolvido em colaboração com IA de escalada.
O que distingue o Nomos 1 da simples inferência de modelo é seu sofisticado sistema de raciocínio – uma estrutura de código aberto que orquestra como o modelo aborda e resolve problemas. O arnês opera em duas fases distintas dentro de um limite de tempo de três horas, refletindo a estrutura real da competição de Putnam.
Na fase de resolução, os trabalhadores paralelos enfrentam simultaneamente os problemas utilizando um sistema baseado em prioridades. Cada trabalhador escolhe um problema, gera um envio e, em seguida, pontua seu próprio trabalho em uma escala de 1 a 7. Problemas com o menor número de pontuações perfeitas recebem prioridade, garantindo que o sistema concentre seu cálculo nos desafios mais difíceis. Este processo continua até que todos os problemas tenham alcançado um número alvo de pontuações perfeitas autocríticas ou o tempo acabe.
A fase de finalização começa 15 minutos antes do limite de tempo (ou 50% para tiragens mais curtas) e emprega um processo de seleção em duas etapas. Primeiro, uma etapa de consolidação agrupa as submissões por conclusão e tenta identificar o grupo correto – o que é mais importante, não necessariamente o grupo majoritário. Então, um torneio em pares usando eliminação simples determina a finalização de cada problema.
"Nosso sistema de raciocínio de código aberto consiste em uma fase de resolução, onde os trabalhadores tentam um problema menos resolvido e se autoavaliam, seguida por uma fase de finalização, que consolida os envios para escolher um envio final para cada problema," Pesquisa Nous explicado.
Como o Nomos 1 se compara aos sistemas matemáticos de IA da DeepSeek, Google e OpenAI
Os resultados do Nomos 1 chegam em meio a uma enxurrada de avanços no raciocínio matemático da IA. Modelo do DeepSeek, DeepSeekMath-V2marcou 118 de 120 pontos em questões da Competição de Matemática William Lowell Putnam de 2024, batendo a pontuação humana máxima de 90. O modelo também teve desempenho no nível dos vencedores da medalha de ouro na Olimpíada Internacional de Matemática.
Este ano, o avançado do Google Modelos Gêmeos operado de ponta a ponta em linguagem natural, produzindo provas matemáticas rigorosas diretamente das descrições oficiais dos problemas – tudo dentro do limite de tempo de competição de 4,5 horas. Eles alcançaram o resultado deste ano usando uma versão avançada do Gêmeos Pensamento Profundo.
O que torna a conquista do Nomos 1 notável não é o desempenho bruto – ele fica atrás dos 118/120 do DeepSeek – mas sim sua acessibilidade e eficiência. Com 30 bilhões de parâmetros e apenas 3 bilhões ativos, o modelo pode ser executado em hardware de consumo, um forte contraste com os enormes clusters de computação exigidos pelos modelos de fronteira da OpenAI e do Google.
Hermes 4.3 chegou apenas seis dias antes, treinado em uma rede blockchain descentralizada
O anúncio do Nomos 1 segue de perto o lançamento do Nous Research em 3 de dezembro Hermes 4.3um modelo de linguagem de uso geral que marcou outro marco significativo para a empresa.
Hermes 4.3, baseado no ByteDance Modelo Seed-OSS-36B-Baseé o primeiro modelo de produção que a Nous Research treinou inteiramente em seu Rede psique — uma infraestrutura de treinamento distribuída que usa um novo otimizador chamado DisTrO para coordenar o treinamento em nós espalhados por data centers na Internet aberta, garantidos por consenso no blockchain Solana.
A empresa treinou Hermes 4.3 tanto através de métodos centralizados tradicionais como no Rede psiqueespecificamente para verificar se o treinamento distribuído poderia igualar ou exceder o desempenho centralizado para cargas de trabalho de produção. A versão treinada pela Psyche superou a versão centralizada em um conjunto de tarefas posteriores, informou a empresa.
"A execução do treinamento se mostrou estável, com média de 144 mil tokens/segundo espalhados por 24 nós Psyche," Nous Research afirmou. "Usando a estratégia coletiva sobreposta do DisTrO, todas as comunicações P2P foram ocultadas pelo tempo de treinamento, alcançando efetivamente um rendimento equivalente ao treinamento tradicional e centralizado."
Hermes 4.3 também alcançou resultados de última geração no RefusalBench, um novo benchmark que mede a disposição de um modelo em ser útil em uma variedade de cenários comumente restringidos por outros modelos. O modelo respondeu 74,60% das perguntas do RefusalBench no modo não racional, superando seu antecessor Hermes 4 70B (59,50%) e superando modelos fechados, incluindo Grok 4 (51,30%) e Gemini 2.5 Pro (24,23%).
Pequenos modelos com treinamento inteligente estão diminuindo a lacuna com gigantes de trilhões de parâmetros
Juntos, os dois lançamentos numa única semana sinalizam a aposta estratégica da Nous Research: que modelos mais pequenos e mais eficientes, com técnicas pós-formação sofisticadas e sistemas de raciocínio, podem competir com — e em alguns casos superar — os modelos massivos desenvolvidos por concorrentes mais bem financiados.
Para os decisores empresariais, as implicações são significativas. As capacidades de raciocínio matemático têm aplicações muito além das competições acadêmicas: são essenciais para verificação formal, prova de teoremas, modelagem científica, análise criptográfica e qualquer domínio que exija dedução lógica rigorosa.
A natureza de código aberto de ambas as versões — Nomos 1 está disponível sob a licença Apache 2.0 no Hugging Face, com o raciocínio completo no GitHub — significa que as organizações podem implantar esses recursos em sua própria infraestrutura sem depender de chamadas de API para os principais provedores de nuvem.
"Pela primeira vez, qualquer pessoa pode executar ou acessar um matemático de IA de última geração," observou um observador nas redes sociais. "Isso reduz a barreira para pesquisas matemáticas sérias, verificação de provas, modelagem de sistemas complexos e trabalho de raciocínio avançado."
Os principais colaboradores do Nomos 1 incluem Roger Jin, que liderou o treinamento; Jeffrey Quesnelle e Dakota Mahan, que construíram a infraestrutura; Chen Guang, que aconselhou; e Ryan Teknium e Jeffrey Quesnelle, que forneceram liderança. O modelo foi desenvolvido com contribuições da Hillclimb AI e uma equipe de especialistas em matemática, incluindo Samuel Kim, Miron Yurkevich e outros.
A corrida para construir matemáticos de IA está acelerando mais rápido do que se previu
O 86ª Competição Putnam ocorreu no sábado, 6 de dezembro de 2025 – apenas três dias antes da Nous Research lançar o Nomos 1. O momento ressalta a rapidez com que o campo está se movendo: as empresas estão agora lançando sistemas matemáticos de IA capazes de desempenho humano quase de elite poucos dias após as competições que foram projetados para resolver.
A competição em IA matemática intensificou-se dramaticamente nos últimos meses. Em julho, uma versão avançada do Modelo Gemini do Google DeepMind e um modelo de raciocínio experimental de OpenAI ambos alcançaram o status de ouro na IMO 2025. O novo modelo do DeepSeek correspondeu ao seu desempenho, resolvendo 5 de 6 problemas.
Mas os requisitos de recursos para esses sistemas fronteiriços continuam proibitivos para a maioria das organizações. O o1-pro da OpenAI é estimado em mais de 1,8 trilhão de parâmetros; O Gemini 2.5 Pro do Google provavelmente ultrapassa 400 bilhões. O Nomos 1, por outro lado, alcança resultados competitivos com uma fração dessa área ocupada.
A lacuna entre modelos de fronteira massivos e alternativas eficientes de código aberto está diminuindo. E para as organizações que precisam de capacidades de raciocínio matemático sem o orçamento para computação em hiperescala, essa lacuna pode ter diminuído o suficiente para ser importante.
Como um observador coloque nas redes sociais: "Isso marca um salto significativo para modelos matemáticos de IA que são pequenos o suficiente para serem executados em seu laptop."
Um laptop que agora pode superar quase 4.000 dos melhores matemáticos universitários do continente.