Calvin Wankhede / Autoridade Android
Resumo
- O novo modo Advanced Voice do ChatGPT foi adiado em pelo menos um mês.
- A OpenAI está atualmente trabalhando para melhorar a segurança e a confiabilidade do modelo.
- O recurso estará disponível para usuários selecionados como uma versão alfa limitada em breve, com lançamento completo previsto para o final de 2024.
No mês passado, escrevi sobre como um dos recursos principais do GPT-4o não veria a luz do dia por mais algumas semanas. O recurso em questão era um modo avançado de conversação por voz integrado ao aplicativo ChatGPT para smartphone, com capacidades muito além de qualquer assistente pessoal que vimos até agora. Avançando até hoje, no entanto, a OpenAI anunciou que o recurso não estará pronto por pelo menos mais um mês.
Em um tweet recente, a OpenAI disse que planejou originalmente começar a lançar o recurso para usuários selecionados no final de junho. No entanto, a empresa decidiu que precisa de mais um mês para focar na segurança. Falando sem rodeios e nas próprias palavras da OpenAI, a empresa está “melhorando a capacidade do modelo de detectar e recusar determinados conteúdos”.
A OpenAI também citou desafios relacionados à infraestrutura como motivo do atraso. Isso não é surpreendente, visto que o ChatGPT sofreu inúmeras interrupções somente no mês passado. Mesmo antes disso, eu pessoalmente notei problemas e artefatos ao usar o modo normal de conversa por voz. O GPT-4o poderia ser mais intensivo em termos computacionais, especialmente porque a OpenAI promete que pode fornecer respostas às entradas de áudio em apenas 232 milissegundos.
Mas embora a OpenAI tenha dito que só abrirá o acesso ao novo modo de voz no próximo mês, um pequeno número de usuários já começou a ver um convite no aplicativo para testar o recurso. A página descreve “Voz Avançada” como um novo recurso em “alfa limitado”. No entanto, aceitar o convite não parece desbloquear o acesso ao novo modo de voz, por isso pode ser o caso de um pop-up aparecer antes do pretendido.
Enquanto isso, o tweet da OpenAI sugere que o acesso alfa será aberto no próximo mês para um pequeno grupo de usuários com disponibilidade geral prevista para o outono. No entanto, a empresa alerta que o cronograma de lançamento dependerá do cumprimento dos padrões internos de segurança e confiabilidade.
O que o modo Advanced Voice do ChatGPT pode fazer?
Tivemos nosso primeiro vislumbre do novo modo de voz do GPT-4o no evento Spring Update da OpenAI no início de maio. A empresa lançou uma série de demonstrações nas semanas seguintes, mostrando o ChatGPT não apenas participando de discussões rápidas, mas também capaz de modular sua voz para imitar sarcasmo, risos e muito mais. A OpenAI também afirmou que o modelo será capaz de detectar emoções na voz do usuário e reagir de acordo, uma novidade para qualquer chatbot.
Alguns vídeos de amostra também combinaram os recursos visuais e de voz do GPT-4o, permitindo que o chatbot respondesse a perguntas sobre situações da vida real. Em uma dessas demonstrações, o fundador da Khan Academy, Sal Khan, mostrou como o recurso poderia ser usado como uma ferramenta de ensino para problemas matemáticos na tela.
De acordo com o tweet da OpenAI, os novos recursos de vídeo e compartilhamento de tela serão lançados separadamente do modo de voz. No entanto, todos esses recursos avançados serão bloqueados pela assinatura paga do ChatGPT Plus da empresa. Até agora, a assinatura de US$ 20 por mês desbloqueou apenas o acesso baseado em texto ao modelo GPT-4o, bem como recursos complementares, como GPTs personalizados.