DR
- O Google lançou e demonstrou recentemente o Gemini, seu mais recente modelo de linguagem grande.
- No entanto, a demonstração do Gemini pelo Google não é em tempo real e toma algumas liberdades em algumas sequências de demonstração.
- Em tempo real, o Google Gemini trabalha com imagens estáticas e texto escrito e gera texto escrito.
O Google lançou recentemente ao público o Gemini, seu mais recente modelo de linguagem grande. Gemini compete com empresas como o GPT-4 da OpenAI e impulsionará grande parte da inteligência de IA do Google nos próximos anos. O Google fez uma demonstração prática fantástica para mostrar as capacidades do Gemini, e foi impressionante como o modelo de IA parecia ser perfeito. No entanto, isso é apenas parte da história, pois descobriu-se agora que a demonstração não era precisamente uma demonstração em tempo real do Gemini.
Primeiro, vamos dar uma olhada no vídeo prático do Google Gemini:
Muito impressionante, certo? Gêmeos conseguia entender a linguagem falada e as imagens sem esforço e perfeitamente, mesmo quando a imagem mudava dinamicamente (como o pato ficando colorido). Gemini foi tão responsivo que não parecia que a demonstração fosse uma interação de IA; poderia ter sido uma pessoa!
Acontece que parte do vídeo não é real. A interação da IA não acontece da maneira que o Google demonstrou que aconteceria. Como Bloomberg aponta, a descrição do vídeo no YouTube tem a seguinte isenção de responsabilidade:
Para os fins desta demonstração, a latência foi reduzida e as saídas do Gemini foram encurtadas por questões de brevidade.
Embora isso indique que o modelo de IA teria demorado mais para responder, Bloomberg observa que a demonstração não foi realizada em tempo real nem com voz falada. Um porta-voz do Google disse que isso foi feito “usando quadros de imagens estáticas da filmagem e solicitando via texto”.
Acontece que a forma como o Gemini funciona é muito mais parecida com a IA do que a demonstração faz parecer. Vice-presidente de pesquisa do Google e co-líder da Gemini demonstrado O funcionamento real de Gêmeos.
Estou muito feliz em ver o interesse em torno do nosso vídeo “Hands-on with Gemini”. Ontem, em nosso blog de desenvolvedores, detalhamos como o Gemini foi usado para criá-lo. https://t.co/50gjMkaVc0Demos ao Gemini sequências de diferentes modalidades – imagem e texto neste caso – e fizemos com que ele respondesse… pic.twitter.com/Beba5M5dHP
O segundo vídeo mostra como o Gemini possui um conjunto inicial de instruções que chama sua atenção para a sequência de objetos na imagem. Em seguida, uma imagem estática é enviada ao Gemini junto com uma entrada de texto. Quando o modelo é executado, o Gemini leva cerca de quatro a cinco segundos para enviar uma mensagem de texto.
A empresa nunca mencionou que se tratava de uma demonstração ao vivo e ainda tinha um aviso de isenção de responsabilidade por latência e brevidade. Mesmo assim, está claro que o Google tomou liberdade criativa com a demonstração.
As empresas editam suas demonstrações com mais frequência do que você imagina, e as demonstrações ao vivo para o público são as únicas que você deve considerar pelo valor nominal. Mas pode-se argumentar que a demonstração do Google para o Gemini foi um pouco criativa demais e não uma representação precisa de como o Gemini funciona.
É bastante semelhante à forma como os OEMs de telefones mostram amostras de câmeras e fotos e vídeos “filmados” no palco, e a verdade é que equipamentos e talentos adicionais estavam envolvidos na obtenção desses resultados. Os resultados que o usuário médio obteria seriam bem diferentes, e a maioria de nós aprendeu a ignorar amostras de câmeras, especialmente aquelas apresentadas pela empresa.