O que acabou de acontecer? Apesar de todos os avanços que a IA fez nos últimos seis meses, ainda não vimos todo o seu potencial usado em jogos. Mas na Computex 2023, o chefe da Nvidia, Jensen Huang, nos deu um vislumbre do que poderia ser o futuro dos jogos.
Jensen revelou o Nvidia Avatar Cloud Engine (ACE) para jogos durante seu discurso de abertura da Computex, um serviço de IA personalizado que a Nvidia diz que traz inteligência para personagens não jogáveis por meio de interações de linguagem natural alimentadas por IA.
Huang disse que o ACE for Games permite conversas de áudio para expressão facial, texto para fala e linguagem natural. Referindo-se a este último, o CEO disse que era “basicamente um grande modelo de linguagem”.
O ACE for Games permite que um NPC ouça a conversa de um jogador, que ele pode inserir usando sua própria voz e gerar uma resposta – sem falas enlatadas que continuam sendo repetidas. O sistema também pode animar o rosto de um personagem para que corresponda às palavras geradas que estão falando.
Huang demonstrou a tecnologia em ação por meio de uma demonstração em tempo real do Unreal Engine 5, projetada pela Convai, chamada Kairos. O clipe semelhante ao Cyberpunk 2077 mostra um jogador entrando em uma loja de ramen e falando com o NPC Jin. O jogador é ouvido fazendo perguntas com sua voz e recebendo respostas que estão dentro do contexto da história e do personagem.
O diálogo é bastante seco e rígido, mas ainda é uma tecnologia impressionante. É fácil imaginar como será o ACE for Games depois de ser um pouco mais refinado.
Você pode ver outro exemplo do trabalho da Convai no vídeo abaixo.
A Nvidia explicou que o ACE for Games se baseia no Nvidia Omniverse e oferece acesso a três componentes. O primeiro é o Nvidia NeMo, usado para construir, personalizar e implantar modelos de linguagem. Ele possui um recurso chamado NeMo Guardrails que pode proteger contra usuários que tenham conversas “inseguras”, algo que provavelmente será necessário quando aplicado a videogames.
Outro componente é o Nvidia Riva, usado para reconhecimento automático de fala e conversão de texto em fala para que os jogadores possam ter conversas ao vivo por meio de um microfone.
O elemento final é o Nvidia Omniverse Audio2Face. Esse componente é o que permite que as animações faciais dos personagens correspondam às palavras que estão falando. A tecnologia já está sendo usada nos próximos jogos STALKER 2: Heart of Chernobyl e Fort Solis.
“As redes neurais que habilitam o Nvidia ACE for Games são otimizadas para diferentes recursos, com várias compensações de tamanho, desempenho e qualidade. O serviço de fundição do ACE for Games ajudará os desenvolvedores a ajustar modelos para seus jogos e, em seguida, implantar via Nvidia DGX Cloud , PCs GeForce RTX ou no local para inferência em tempo real”, diz a Nvidia. “Os modelos são otimizados para latência – um requisito crítico para interações imersivas e responsivas em jogos.”
Huang não disse quais eram os requisitos para usar o ACE for Games, mas é provável que sejam bastante robustos em sua forma atual.
Ainda há muito espaço para melhorias na tecnologia, mas o ACE for Games pode ser o primeiro passo em direção a um futuro onde os jogadores podem fazer qualquer pergunta que quiserem aos NPCs, desde que seja relacionada ao jogo, e recebam o tipo de resposta que desejam. estavam procurando, não uma resposta enlatada. A ideia de colegas de equipe controlados por IA que são semelhantes aos humanos em seus diálogos e na maneira como seguem comandos falados também é interessante.