Olhando para o futuro: Uma equipe de pesquisadores de todo o mundo trabalhando com a Nvidia criou o que está sendo descrito como um canivete suíço para som – um modelo de IA capaz de gerar ou transformar praticamente qualquer mix de música usando qualquer combinação de arquivos de áudio ou prompts de texto.
O novo modelo é conhecido como Fugatto, abreviação de Foundational Generative Audio Transformer Opus 1. Segundo a Nvidia, suas capacidades são incomparáveis. Por exemplo, Fugatto pode criar uma música baseada apenas em texto, mudar a emoção na voz de um cantor ou modificar seu sotaque, e até mesmo adicionar ou remover instrumentos de uma música existente.
Fugatto poderia revolucionar o processo de criação musical. Com ele, um produtor poderia rapidamente criar um protótipo de uma ideia para uma nova música completa com estilos de voz e instrumentos personalizados, ou ajustar efeitos em uma faixa existente.
Ido Zmishlany, produtor e compositor multiplatinado, acredita que a IA e ferramentas como o Fugatto ajudarão a escrever o próximo capítulo da música. Dito isto, o modelo não se limita à produção musical.
A Nvidia destacou vários casos de uso alternativos, como uma agência de publicidade usando-o para modificar narrações em uma campanha para acomodar diferentes regiões, situações ou idiomas. O modelo também pode ajudar a aprimorar as ferramentas de aprendizagem de idiomas, permitindo que o usuário personalize a voz de quem fala, fazendo com que soe como a de um amigo ou membro da família.
Os desenvolvedores de videogames podem usar a ferramenta para criar novos recursos dinamicamente com base nas entradas do jogador ou modificar recursos pré-gravados para melhor se adequarem ao nível de ação na tela a qualquer momento.
Rafael Valle, um dos pesquisadores que trabalhou no projeto, disse que queria criar um modelo que entendesse e gerasse sons como os humanos.
Mais de um ano de trabalho foi dedicado à elaboração da versão completa do Fugatto, que utiliza 2,5 bilhões de parâmetros. A Nvidia disse que o modo foi treinado em um grupo de sistemas DGX equipados com 32 GPUs Nvidia H100 Tensor Core. Infelizmente, um cronograma sobre quando Fugatto poderia ser divulgado ao público não foi compartilhado.