Calvin Wankhede / Autoridade Android
DR
- O Google lançou um vídeo prático demonstrando os recursos de resposta de voz do Gemini em “tempo real”.
- Mais tarde, o Google admitiu que o vídeo de demonstração não aconteceu em tempo real com instruções faladas.
- Um YouTuber usou o GPT-4 Vision para recriar a demonstração do Gemini e fazer isso em tempo real.
Depois que o Google lançou seu impressionante vídeo de demonstração prática do Gemini, descobriu-se que ele era bom demais para ser verdade. Mas agora alguém recriou aquela demonstração no GPT-4 Vision, conseguindo o que o Gemini não conseguiu fazer em seu vídeo.
O modelo de linguagem grande Gemini (LLM) do Google é o conjunto de modelos de IA mais poderoso da empresa até o momento e sua maior chance na arquitetura GPT-4 da OpenAI. Na tentativa de mostrar o quão capaz é seu LLM multimodal, o Google lançou um vídeo prático do Gemini supostamente respondendo a comandos de voz em tempo real. Inicialmente, a demonstração foi bastante impressionante, mas os espectadores finalmente descobriram um aviso que dizia que a latência foi reduzida e as saídas do Gemini foram encurtadas por questões de brevidade.
Embora esses problemas tornem a demonstração um pouco menos impressionante, foi a constatação de que ela não estava realmente respondendo à fala em tempo real, como o Google disse, que a transformou em um verdadeiro momento de ovo na cara para a empresa. . Google admitiu Bloomberg que Gemini não estava respondendo a comandos de voz em tempo real, mas sim a comandos de texto. Para responder às críticas, Gemini co-lidera Oriol Vinyals explicou mais tarde que o Gemini tem todos os recursos necessários para esta função, mas o vídeo pretendia mostrar como poderiam ser “experiências de usuário multimodais construídas com o Gemini”.
Embora o estrago tenha sido feito, parece que um YouTuber acrescentou um pequeno insulto à injúria. O canal do YouTube Greg Technology publicou um vídeo onde a demonstração do Gemini foi recriada no GPT-4 Vision. Ao contrário do vídeo prático do Google, este vídeo foi feito em tempo real com comandos de voz.
No vídeo, o GPT-4 é solicitado a reconhecer sinais manuais, identificar um jogo que o apresentador estava jogando com as mãos e identificar um desenho. Embora não seja tão polido ou rápido quanto o mostrado na demonstração do Gemini, ele responde em tempo real.