Em dezembro de 2016, o Google lançou o Tacotron 2, um sistema de aprendizado de máquina de texto para fala (TTS) que gera uma fala de som natural a partir de transcrições brutas. Ele é usado em serviços voltados para o usuário, como o Google Assistente, para criar vozes que parecem humanas, mas é relativamente intensivo em computação. Em um novo artigo, os pesquisadores da gigante das buscas afirmam ter abordado essa limitação com o que eles chamam de Tacotron Paralelo, um modelo que é altamente paralelizado durante o treinamento e inferência para permitir a geração eficiente de voz em hardware menos poderoso.
A síntese de texto para voz é conhecida como um problema de mapeamento um-para-muitos. Dado qualquer fragmento de texto, várias vozes com diferentes prosódias (entonação, tom, ênfase e ritmo) podem ser geradas. Mesmo modelos sofisticados como o Tacotron 2 estão sujeitos a erros como balbucio, fala interrompida e repetição ou pulo de palavras como resultado. Uma maneira de resolver isso é aumentar os modelos incorporando representações que capturam fatores latentes da fala. Essas representações podem ser extraídas por um codificador que usa espectrogramas de verdade (uma representação visual das frequências da fala ao longo do tempo) como sua entrada; esta é a abordagem do Parallel Tacotron.
Em experimentos, para treinar o Parallel Tacotron, os pesquisadores dizem que usaram um conjunto de dados contendo 405 horas de fala, incluindo 347.872 expressões de 45 falantes em 3 sotaques ingleses (32 falantes de inglês americano, 8 ingleses britânicos e 5 falantes de inglês australiano). O treinamento levou um dia usando Google Cloud TPUs, circuitos integrados específicos de aplicativos desenvolvidos especificamente para acelerar a IA.
Os pesquisadores fizeram com que revisores humanos analisassem 1.000 sentenças para avaliar o desempenho do Parallel Tacotron, que foram sintetizadas usando 10 falantes de inglês dos Estados Unidos (5 homens e 5 mulheres) em um estilo round-robin (100 sentenças por falante). Embora haja espaço para melhorias, os resultados sugerem que o Parallel Tacotron “se saiu bem” em comparação com a fala humana. Além disso, o Tacotron Paralelo era cerca de 13 vezes mais rápido do que o Tacotron 2.
“Vários modelos foram propostos para sintetizar vários aspectos da fala (por exemplo, estilos de fala) de forma natural”, escreveram os pesquisadores. “O Tacotron paralelo combinou com o Tacotron 2 da linha de base em naturalidade e ofereceu uma inferência significativamente mais rápida do que o Tacotron 2.”
O lançamento do Parallel Tacotron, que está disponível no GitHub, vem após a Microsoft e o Facebook detalharem suas próprias técnicas rápidas de conversão de texto em fala. O FastSpeech da Microsoft apresenta uma arquitetura única que não apenas melhora o desempenho em várias áreas, mas elimina erros como pular palavras e permite ajustes precisos de velocidade e quebra de palavras. Quanto ao sistema do Facebook, ele aproveita um modelo de linguagem para curadoria para criar vozes 160 vezes mais rápido em comparação com uma linha de base.
Como as startups estão escalando a comunicação:
A pandemia está fazendo com que as startups analisem de perto o desenvolvimento de suas soluções de comunicação. Aprenda como