O RAD-TTS da NVIDIA gera vozes IA realistas que são mais expressivas

No contexto: As vozes sintetizadas já percorreram um longo caminho ao longo dos anos. Já se foram os dias das vozes sintéticas que soavam como um robô de um filme de ficção científica dos anos 1960. Assistentes contemporâneos de IA, como Alexa e Siri, produzem uma voz humana muito mais realista.

No que diz respeito a vozes sintetizadas e conversão de texto em voz, ainda não é perfeito. No entanto, o departamento de pesquisa de texto para fala da Nvidia desenvolveu algumas ferramentas de aprendizado de máquina para tornar a síntese de voz mais realista em várias aplicações.

A Nvidia desenvolveu um modelo de IA chamado RAD-TTS. Os desenvolvedores podem treinar o modelo com sua própria voz, e ele converterá os prompts de texto em fala natural usando as inflexões e tons que aprendeu. Ele também pode converter a voz de um falante para a de outro.

“Outro de seus recursos é a conversão de voz, em que as palavras de um locutor (ou até mesmo o canto) são transmitidas na voz de outro locutor”, diz Nvidia. “Inspirado pela ideia da voz humana como um instrumento musical, a interface RAD-TTS oferece aos usuários um controle refinado em nível de quadro sobre o tom, a duração e a energia da voz sintetizada.”

Você pode ver exemplos da tecnologia em uso na série de vídeos “I AM AI” da Nvidia. O produtor de vídeo da Nvidia leu o roteiro nessas demos, e o modelo converteu sua voz em uma narradora feminina. Uma vez que o modelo tem um script de linha de base, o desenvolvedor pode ajustar a narração para enfatizar palavras específicas e modificar o ritmo para se adequar ao vídeo.

A tecnologia tem potencial em muitas áreas, incluindo atendimento automatizado ao cliente, tradução de idiomas, ajuda para pessoas com deficiência e até jogos. Praticamente qualquer aplicativo que requeira uma voz humana de som natural tem o potencial de se beneficiar do RAD-TTS.

“Vários dos modelos são treinados com dezenas de milhares de horas de dados de áudio em sistemas NVIDIA DGX. Os desenvolvedores podem ajustar qualquer modelo para seus casos de uso, acelerando o treinamento usando computação de precisão mista em GPUs NVIDIA Tensor Core”, diz a empresa. postagem no blog.

As ferramentas são aceleradas por GPU e, é claro, otimizadas para uso em computadores equipados com placas de vídeo Nvidia. No entanto, seu trabalho é de código aberto e gratuito para qualquer desenvolvedor interessado. A Nividia o disponibilizou no kit de ferramentas Nvidia NeMo Python em seu hub de contêineres e software NGC.