Calvin Wankhede / Autoridade Android
DR
- A OpenAI demonstrou recursos de visão ao vivo no modo de voz avançado no ChatGPT, mas não compartilhou um cronograma de lançamento além da versão alfa.
- Detectamos strings que sugerem que o recurso, que poderia ser chamado de “Câmera ao vivo”, poderá ser lançado em breve na versão beta do ChatGPT.
Muitas pessoas confiam fortemente no ChatGPT para suas necessidades profissionais e pessoais diárias. OpenAI adicionou um nível de facilidade de uso ao ChatGPT com recursos como Modo de Voz Avançado para conversas naturais, mas os usuários estavam esperando que os recursos de visão prometidos também fossem implementados. Há boas notícias nesse sentido, já que os recursos de vídeo ao vivo do ChatGPT no modo de voz avançado poderão em breve ser lançados para mais usuários.
Quando a OpenAI anunciou o GPT-4o em maio de 2024, ela se vangloriava de recursos avançados de visão ao vivo chegando ao modo de voz avançado do ChatGPT. A empresa exibiu esta demonstração onde o novo Modo de Voz Avançado reconheceu fácil e perfeitamente o assunto na imagem da câmera como um cachorro, lembrou seu nome, reconheceu a bola e associou a bola e o cachorro por meio de uma atividade como buscar.
A demonstração foi bastante impressionante, considerando a pouca informação que o usuário teve para inserir específica e manualmente e a rapidez com que o assistente de IA respondeu à transmissão ao vivo da câmera. Era quase como se o usuário estivesse fazendo uma videochamada para um humano.
Alguns usuários tiveram a oportunidade de experimentar o recurso Live Video (visão) em alfa e ficaram igualmente impressionados.
Tentando #ChatGPTO novo Modo de Voz Avançado que acaba de ser lançado em Alpha. É como conversar pessoalmente com um amigo super conhecedor, o que neste caso foi muito útil – nos tranquilizando com nosso novo gatinho. Ele pode responder perguntas em tempo real e também usar a câmera como entrada! pic.twitter.com/Xx0HCAc4To
No entanto, os usuários têm esperado pacientemente que o recurso chegue ao aplicativo fora do alfa. Até onde sabemos, a OpenAI não prometeu um cronograma de lançamento para os recursos de visão no Modo de Voz Avançado além da implementação alfa.
OpenAI agora parece estar se preparando para um lançamento beta, pois identificamos strings relacionadas aos recursos de visão no modo de voz avançado na versão beta mais recente do ChatGPT v1.2024.317.
Código
<string name="video_nux_beta_label">Beta</string>
<string name="video_nux_description">Tap the camera icon to let ChatGPT view and chat about your surroundings.</string>
<string name="video_nux_title">Live camera</string>
<string name="video_warning">Don't use for live navigation or decisions that may impact your health or safety.</string></code?
As strings acima indicam que o recurso pode ser chamado de “Câmera ao vivo” quando for lançado na versão beta. Detectamos avisos para usuários que os aconselham a não usar o recurso de câmera ao vivo para navegação ao vivo ou outras decisões que afetem sua saúde ou segurança.
Como as strings foram detectadas na versão beta do aplicativo, isso pode significar que a empresa está agora se preparando para um lançamento beta mais amplo, possivelmente em um futuro próximo. Se pudermos fazer suposições, presumimos que o recurso poderá em breve estar disponível para assinantes do ChatGPT Plus e possivelmente para outros níveis pagos do assistente de IA.
Entramos em contato com a OpenAI para obter comentários sobre o cronograma de lançamento dos recursos de visão em tempo real no modo de voz avançado do ChatGPT. Atualizaremos este artigo quando recebermos uma resposta da empresa.