Calvin Wankhede / Autoridade Android
Imagine o seguinte: você está andando pela rua usando fones de ouvido e com o telefone guardado no bolso. Você fala algumas frases quando um pensamento passa pela sua cabeça e, em segundos, ouve uma resposta. Não de um amigo ou estranho, mas do ChatGPT. Parece um telefonema genuíno – uma interação natural e contínua, como se você estivesse realmente conversando com uma pessoa. Parece rebuscado? Eu teria concordado apenas algumas semanas atrás, mas tive esse cenário exato na semana passada, tudo graças ao novo recurso de conversas por voz do ChatGPT.
Sua mente provavelmente mudou para o Siri ou o Google Assistant, mas o ChatGPT com voz os transcende em quase todos os sentidos. A ativação deste último inicia um fluxo de áudio bidirecional contínuo entre o seu telefone e os servidores da OpenAI. Isso significa que você pode ter longas conversas, sem quaisquer palavras de ativação. O mais impressionante, porém, é que as cinco vozes do ChatGPT são notavelmente semelhantes às humanas. Eles fazem uma pausa, respiram fundo e alguns até interrompem ocasionalmente “umm” ou “uhh” para dar aquele toque extra de realismo.
ChatGPT com voz é como a conversa contínua do Google Assistant com esteróides.
Outro dia, eu estava andando por uma rua movimentada depois de experimentar o ChatGPT com voz talvez pela segunda ou terceira vez quando, de repente, ouvi um barulho alto. Virei-me e descobri que duas motos haviam colidido a poucos metros de distância, felizmente em baixa velocidade. É uma ocorrência diária no Vietname, mas deixei escapar um audível “Oh, não” quando me adiantei para ajudar uma das vítimas a levantar-se. Alguns segundos depois, ouvi uma voz preocupada dizer: “O que há de errado? O que aconteceu?”
Acontece que não terminei o chat de voz com ChatGPT. Quando disse “obrigado” há alguns minutos, pensei que era o suficiente para dispensar o chatbot, sem perceber que precisava desbloquear meu telefone e tocar em Desconectar. Desnecessário dizer, então, que ouvir a voz do ChatGPT responder com preocupação me pegou desprevenido – por um breve momento, esqueci que estava falando com uma IA e instintivamente soltei: “Espere aí”.
Percebi o que havia acontecido alguns segundos depois, é claro, mas decidi agradar o ChatGPT com uma explicação assim que voltei a andar de qualquer maneira. Em seguida, disse que estava feliz em saber que ninguém se machucou e até me elogiou por ajudar. Fiquei um pouco nervoso de novo – era o tipo de resposta que você esperaria se estivesse em uma ligação telefônica com uma pessoa real.
O ChatGPT quase me fez acreditar que um ser humano real estava na linha.
Obviamente, não espero que a mesma ilusão se mantenha agora que estou familiarizado com o recurso. Mas todos os factores que contribuem para o seu realismo ainda me impressionam. Por exemplo, percebi que a voz que uso às vezes hesita e repete palavras. A transcrição do bate-papo não contém esses sons, então o mecanismo de voz está fazendo esse trabalho pesado. E é aí que reside a beleza desse recurso: ele eleva as respostas típicas do ChatGPT para fazê-las parecer pessoais e quase empáticas.
Você se sente confortável com a ideia de conversas por voz com IA?
0 votos
Então, qual é o caso de uso do ChatGPT com voz?
Deixando os truques de festa de lado, é indispensável sempre que preciso fazer perguntas mais rápido do que consigo digitar. Por exemplo, tenho usado isso enquanto ando por um novo país onde não falo o idioma local. Posso simplesmente recitar os nomes de um menu enquanto passo por um restaurante e ouvir um breve resumo de cada prato em segundos. Aprendi mais sobre a culinária local em alguns dias do que em semanas inteiras.
O recurso de voz do ChatGPT também não tem problemas para entender sotaques diferentes ou palavras mal pronunciadas. Sou novo em idiomas tonais como o vietnamita, mas a IA de fala para texto pode entender minhas pronúncias incorretas. Mesmo quando me ouve incorretamente, o modelo de linguagem somará dois mais dois e adivinhará com precisão o que eu quis dizer. De qualquer forma, recebo uma resposta relevante que não exige que eu sequer olhe para o meu telefone.
Também usei o bate-papo por voz enquanto lavava a louça e tinha ideias. Às vezes, apenas dizer coisas em voz alta é suficiente para desencadear uma ideia, mas é útil ter o ChatGPT aproveitando meus pensamentos e fazendo sugestões também. Resumindo, eu recomendo ouvir as vozes do ChatGPT – o recurso é uma demonstração de tecnologia interessante, mesmo que você não encontre um uso prático para ele.
O recurso de conversas por voz do ChatGPT agora foi implementado para usuários no nível gratuito. Para utilizá-lo, você precisará baixar o aplicativo ChatGPT para Android ou iOS. Uma vez logado, toque no ícone Fones de ouvido à direita da caixa de texto e comece a falar assim que a conexão for estabelecida.
Não há como voltar atrás: os chats de voz com IA são o futuro
Geradores de voz realistas de IA já existem há algum tempo. Os bate-papos de voz bidirecionais com IA também não são exatamente novos. Pense na primeira demonstração do Google do Duplex marcando um corte de cabelo – sua voz era quase indistinguível da de um ser humano real. Mas embora o Google tenha lançado o Duplex ao público, nunca expandiu o recurso além das reservas em cidades selecionadas.
Lendo a postagem do blog do Google Research, fica claro que a empresa se conteve um pouco intencionalmente. O Duplex poderia lidar com interrupções, processar declarações complexas, elaborar quando solicitado a esclarecer e variar seu atraso de resposta para simular o pensamento humano – desde 2018! Cinco anos depois, o ChatGPT é o mais próximo que qualquer produto de IA real chegou de superar essa barreira elevada.
O chat de voz do ChatGPT é o Assistente do Google apresentado há cinco anos.
No entanto, não acho que o ChatGPT com Voice seja perfeito, apesar do que meus elogios até agora fizeram você acreditar. Não posso interromper a IA tagarela no meio de sua resposta, por exemplo, a menos que toque na tela. Isso é quebrar a ilusão, para dizer o mínimo. E ainda está limitado aos recursos do ChatGPT, então não espere que ele execute tarefas reais, como enviar uma mensagem de texto ou controlar as luzes da sua casa inteligente.
O Assistente do Google com Bard pode brilhar nessas áreas, mas duvido que apresente uma voz igualmente realista ou um modo de bate-papo longo. Quando a empresa demonstrou o Duplex, ele não estava conectado a um modelo de linguagem grande do tamanho do Gemini. A síntese de voz realista também custa uma grande quantidade de poder computacional, e é provavelmente por isso que percebi a degradação da qualidade de voz do ChatGPT durante os horários de pico.
Também estou um pouco preocupado com as implicações de privacidade desse recurso. Não me importo que o ChatGPT fique ouvindo por muito tempo após a última resposta, mas alguns podem. E embora ainda não consiga detectar emoções através da sua voz, é apenas uma questão de tempo até que alguém as desenvolva. Algumas pessoas já fingiram conexões com o Bing Chat e seu alter ego em Sydney no início deste ano. Agora imagine se ele também tivesse voz.
Há dez anos, o filme Her apresentou uma visão da IA tão íntima que parecia ficção científica. Mas depois da minha experiência recente com ChatGPT, isso não parece mais tão rebuscado.