Uma equipe de pesquisadores liderada por Nvidia lançou DreamDojoum novo sistema de IA projetado para ensinar robôs a interagir com o mundo físico, assistindo a dezenas de milhares de horas de vídeo humano – um desenvolvimento que poderia reduzir significativamente o tempo e o custo necessários para treinar a próxima geração de máquinas humanóides.

O pesquisarpublicado este mês e envolvendo colaboradores de Universidade da Califórnia em Berkeley, Stanfordo Universidade do Texas em Austine diversas outras instituições, apresenta o que a equipe chama "o primeiro modelo de mundo robótico desse tipo que demonstra forte generalização para diversos objetos e ambientes após o pós-treinamento."

No centro de DreamDojo é o que os pesquisadores descrevem como "um conjunto de dados de vídeo em grande escala" compreendendo "44 mil horas de diversos vídeos egocêntricos humanos, o maior conjunto de dados até hoje para pré-treinamento de modelos mundiais." O conjunto de dados, chamado DreamDojo-HVé um salto dramático em escala – "Duração 15 vezes maior, 96 vezes mais habilidades e 2.000 vezes mais cenas do que o maior conjunto de dados anterior para treinamento de modelos mundiais," de acordo com a documentação do projeto.

Por dentro do sistema de treinamento em duas fases que ensina robôs a ver como humanos

O sistema opera em duas fases distintas. Primeiro, DreamDojo "adquire conhecimento físico abrangente a partir de conjuntos de dados humanos em grande escala por meio de pré-treinamento com ações latentes." Então ele sofre "pós-treinamento na modalidade alvo com ações contínuas do robô" – essencialmente aprendendo física geral observando humanos e, em seguida, ajustando esse conhecimento para hardware específico de robô.

Para empresas que consideram robôs humanóides, esta abordagem aborda um gargalo persistente. Ensinar um robô a manipular objetos em ambientes não estruturados tradicionalmente requer enormes quantidades de dados de demonstração específicos do robô – uma coleta cara e demorada. DreamDojo contorna esse problema aproveitando o vídeo humano existente, permitindo que os robôs aprendam com a observação antes mesmo de tocar um objeto físico.

Um dos avanços técnicos é a velocidade. Através de um processo de destilação, os pesquisadores conseguiram "interações em tempo real a 10 FPS por mais de 1 minuto" — um recurso que permite aplicações práticas como teleoperação ao vivo e planejamento em tempo real. A equipe demonstrou o sistema funcionando em múltiplas plataformas de robôs, incluindo o GR-1, G1, AgiBote INHAME robôs humanóides, mostrando como eles chamam "lançamentos realistas com ação condicionada" entre "uma ampla gama de ambientes e interações de objetos."

Por que a Nvidia está apostando alto na robótica à medida que os gastos com infraestrutura de IA aumentam

O lançamento chega em um momento crucial para as ambições robóticas da Nvidia – e para a indústria de IA em geral. No Fórum Econômico Mundial em Davos no mês passado, o CEO Jensen Huang declarou que a robótica de IA representa uma "uma vez em uma geração" oportunidade, especialmente para regiões com fortes bases industriais. De acordo com DigitimesHuang também afirmou que a próxima década será "um período crítico de desenvolvimento acelerado da tecnologia robótica."

Os riscos financeiros são enormes. Huang disse à CNBC "Relatório do intervalo" em 6 de fevereiro, que as despesas de capital da indústria de tecnologia – potencialmente atingindo US$ 660 bilhões este ano dos grandes hiperescaladores – são "justificado, apropriado e sustentável." Ele caracterizou o momento atual como "a maior construção de infraestrutura da história da humanidade," com empresas como Meta, Amazon, Google e Microsoft aumentando drasticamente seus gastos com IA.

Esse impulso infra-estrutural já está a remodelar o panorama da robótica. Startups de robótica bateram recorde US$ 26,5 bilhões em 2025segundo dados do Dealroom. Gigantes industriais europeus, incluindo Siemens, Mercedes-Benze Volvo anunciaram parcerias robóticas no ano passado, enquanto o CEO da Tesla, Elon Musk, afirmou que 80 por cento do valor futuro de sua empresa virá de seus robôs humanóides Optimus.

Como o DreamDojo poderia transformar a implantação e os testes de robôs empresariais

Para os decisores técnicos que avaliam robôs humanóides, o valor mais imediato do DreamDojo pode residir nas suas capacidades de simulação. Os pesquisadores destacam aplicações downstream, incluindo "avaliação confiável de políticas sem implantação no mundo real e planejamento baseado em modelo para melhoria no tempo de teste" — capacidades que poderiam permitir às empresas simular extensivamente o comportamento dos robôs antes de se comprometerem com testes físicos dispendiosos.

Isto é importante porque a lacuna entre as demonstrações laboratoriais e o chão de fábrica continua significativa. Um robô que funciona perfeitamente em condições controladas muitas vezes enfrenta variações imprevisíveis dos ambientes do mundo real – iluminação diferente, objetos desconhecidos, obstáculos inesperados. Ao treinar em 44.000 horas de vídeos humanos diversos, abrangendo milhares de cenas e quase 100 habilidades distintas, o DreamDojo visa construir o tipo de intuição física geral que torna os robôs adaptáveis, em vez de frágeis.

A equipe de pesquisa, liderada por Linxi "Jim" Fan, Joel Jang e Yuke Zhu, com Shenyuan Gao e William Liang como co-autores, indicaram que o código será divulgado publicamente, embora um cronograma não tenha sido especificado.

O panorama geral: a transformação da Nvidia de gigante dos jogos em potência da robótica

Se DreamDojo se traduz em produtos robóticos comerciais ainda está para ser visto. Mas a pesquisa sinaliza para onde estão indo as ambições da Nvidia, à medida que a empresa se posiciona cada vez mais além de suas raízes nos jogos. Como Kyle Barr observado no Gizmodo no início deste mês, a Nvidia agora visualiza "qualquer coisa relacionada a jogos e ao ‘computador pessoal’" como "valores discrepantes nas planilhas trimestrais da Nvidia."

A mudança reflecte uma aposta calculada: que o futuro da computação é físico, não apenas digital. Nvidia já investiu US$ 10 bilhões em Antrópico e sinalizou planos para investir pesadamente na próxima rodada de financiamento da OpenAI. DreamDojo sugere que a empresa vê os robôs humanóides como a próxima fronteira onde sua experiência em IA e domínio de chips podem convergir.

Por enquanto, as 44.000 horas de vídeo humano no coração do DreamDojo representam algo mais fundamental do que uma referência técnica. Eles representam uma teoria – que os robôs podem aprender a navegar em nosso mundo observando-nos viver nele. Acontece que as máquinas estão tomando notas.



Share.

Comments are closed.

Exit mobile version