No Google I/O em maio, a empresa estreou sua nova IA multimodal conhecida como Google Gemini. Durante esse lançamento, o Google falou sobre o que a Gemini pode fazer e como transformará muitos dos produtos da empresa. No entanto, foi só no início de dezembro que pudemos ver o Gemini em ação e como ele começará a transformar os telefones Pixel do Google.
Agora que o Gemini está disponível no mundo na série Pixel 8 e com mais por vir, fizemos uma lista de todas as coisas que ele pode fazer em um telefone Pixel até agora e algumas breves ideias de recursos que esperamos. ver no futuro.
Qual versão do Google Gemini os telefones Pixel usam?
Gemini é a arquitetura de IA de próxima geração do Google. Ele foi projetado desde o início para substituir o atual modelo de IA do Google, conhecido como PaLM2. Hoje, PaLM2 é o que funciona nos bastidores para vários recursos e produtos de IA do Google, como Google Bard, Duet AI em aplicativos Workspace, etc. Pense no Gemini como sendo semelhante ao GPT-4, a arquitetura subjacente que alimenta o popular ChatGPT.
A grande diferença do Gemini quando comparado ao PaLM2 ou evento GPT-4 é como ele foi construído. A maioria dos modelos multimodais é construída aos poucos – você constrói uma coisa para fazer a Tarefa A e depois outra coisa para fazer a Tarefa B e depois os reúne para que o sistema possa realizar a Tarefa C. No entanto, Gemini, de acordo com o Google, é “nativamente multimodal, pré -treinado desde o início em diferentes modalidades.” Isso deveria, em teoria, torná-lo mais rápido, preciso e eficiente no desempenho de suas tarefas. Deve também permitir-lhe executar tarefas que outros sistemas não conseguem.
Existem três versões do Gemini, cada uma projetada para tipos específicos de trabalho. Gêmeos Ultra é o GRANDE. Este é o modelo multimodal que realizará tarefas incrivelmente complexas. Gêmeos Profissional impulsionará os produtos do Google para o consumidor que funcionam na nuvem. Pense no Google Bard e em outros produtos PaLM2. E finalmente, há Gêmeos Nano, que foi projetado para funcionar nativamente em um dispositivo e é o que aparece nos telefones Pixel. Esta é a versão menos poderosa do Gemini, mas pode ser a mais prática de usar, pois não requer conexão de dados e pode ser incorporada diretamente em produtos de consumo. Você pode ler mais sobre as diferenças entre as três versões do Gemini em nosso explicador no link.
Então, o que os telefones Pixel podem fazer com o Gemini Nano? Vamos descobrir!
Recurso Gemini Nano: resumos do gravador
No Google Pixel 8 Pro, você pode usar um recurso baseado no Gemini Nano dentro do aplicativo Recorder. Ao abrir a transcrição de uma gravação, você verá um novo botão Resumir. Tocar aqui usará o poder do Gêmeos para produzir um rápido resumo da transcrição.
Para que isso funcione, você deve usar um Pixel 8 Pro na atualização de 6 de dezembro de 2023 ou posterior. Você também precisará da versão mais recente do aplicativo Recorder.
Por se tratar de um recurso do Gemini Nano, o processador do seu telefone cuida do resumo. Isso significa que você não precisa estar conectado à Internet para que o botão Resumir funcione.
Recurso Gemini Nano: Resposta inteligente do Gboard
Isso também é compatível apenas com o Pixel 8 Pro usando o patch de dezembro de 2023, pelo menos por enquanto. Também é um recurso que está na visualização do desenvolvedor, o que significa que você precisa ativá-lo manualmente.
Essencialmente, isso permite que você receba sugestões de respostas em seus bate-papos do WhatsApp. Ele funciona examinando os bate-papos mais recentes em um tópico e, em seguida, fornecendo uma sugestão de resposta apropriada para aquele momento. Em vez de digitar esta resposta manualmente, basta clicar na sugestão e o Gemini fará o trabalho para você.
Obviamente, isso não é diferente do antigo Smart Reply. Mas como usa o Gemini Nano, ele funcionará mais rápido, melhor e usará o processador do seu telefone em vez da nuvem.
Para ativar isso, você precisará acessar as Opções do desenvolvedor. Para ativar isso em seu Pixel 8 Pro, vá para Configurações > Sobre o telefone e role até o final para encontrar o número da versão do software. Toque neste número sete vezes e digite seu PIN. Agora, vá para Configurações > Sistema > Opções do desenvolvedor e role para baixo até encontrar Configurações do AICore. Toque aqui e certifique-se de que Habilitar AICore persistente a alternância está ativada. Isso lhe dará acesso à resposta inteligente do Gboard no WhatsApp, com tecnologia Gemini Nano.
Gemini Pro também está funcionando no Google Bard
Edgar Cervantes / Autoridade Android
Em 6 de dezembro de 2023, o Google ativou oficialmente o Gemini Pro dentro do Google Bard. Segundo o Google, isso tornará Bard “muito mais capaz em coisas como compreensão e resumo, raciocínio, codificação e planejamento”. Se você se comunicar com Bard com texto em inglês hoje, usará o Gemini. Atualmente, ele não funciona para nada além de prompts baseados em texto, portanto, o upload de imagens ou gravações de voz para o Bard ainda usará o PaLM2.
Tecnicamente, este não é um recurso do Pixel, mas você pode acessar o Bard em um Pixel através do seu navegador. Você pode experimentar você mesmo no portal da Bard.
Até agora, não vimos muita diferença entre Gemini Pro Bard e PaLM2 Bard. No entanto, ainda é cedo, então poderemos ver resultados mais substanciais no futuro.
Recursos baseados em Gemini que esperamos ver em telefones Pixel em breve
Ryan Haines / Autoridade Android
Vimos apenas alguns recursos integrando o Gemini, mas sem dúvida há muito mais a caminho. Abaixo, temos algumas idéias sobre novos truques interessantes que os telefones Pixel podem fazer. Para ser claro, esses não são rumores de recursos ou coisas que o Google nos disse que podem estar a caminho – são apenas ideias para o que esperamos ver.
Recursos de fotografia e edição
O Google já usa muita IA para fotografia, videografia e edição de mídia em Pixels. Essas ferramentas ajudam os Pixels a serem alguns dos melhores telefones com câmera que você pode comprar. Gemini poderia levar esses recursos a um nível mais alto e produzir fotografias e videografias como nunca vimos em um telefone.
Como exemplo do que isso pode significar, o Pixel 8 Pro possui um novo recurso chamado Video Boost. Isso processa cada quadro de um vídeo usando os mesmos princípios do processamento que um Pixel faz em uma foto capturada. Para usar o Video Boost, porém, você precisa gravar o vídeo no Pixel 8 Pro, enviá-lo para o Google, esperar que o Google o processe e depois baixá-lo. Talvez, em algum momento no futuro, esse processo possa acontecer no dispositivo com o poder do Gemini. Indo além, em um futuro distante, isso poderá até acontecer em tempo real enquanto você grava o clipe.
Da mesma forma, já temos o Magic Editor para telefones Pixel. No momento, porém, é bastante simplista e também precisa de uma conexão de dados. Com o Gemini, o Magic Editor poderia se tornar o próximo Photoshop, mas seria tão fácil de usar que qualquer um poderia fazê-lo.
Dada a popularidade dos Pixels para fotos e vídeos, temos certeza de que o Google tem muitos grandes planos para Gemini neste domínio.
Mapeamento complexo
O Google Maps já possui muitos recursos quando se trata de mapeamento e rotas. No entanto, mesmo no desktop, você não pode ficar muito complexo com isso. Por exemplo, você não pode incorporar variáveis em seu percurso, como boletins meteorológicos, shows ou outros eventos que possam causar picos significativos no trânsito ou seus próprios hábitos pessoais de direção.
Com Gêmeos, porém, todas essas variáveis poderiam entrar em jogo. Você poderia solicitar instruções para um local, e o Google poderia extrair todos esses diferentes fatores para fornecer a rota ideal. Pode até fornecer uma janela de tempo hiperprecisa para sua chegada.
Com o próximo Google Assistant com Bard, você pode até tornar a criação de navegação complexa completamente natural. Por exemplo, você pode dizer: “Ok Google, preciso de instruções para o trabalho que contornem a Rota 101 e me levem até lá no horário normal”. Esse é um comando muito complexo para o Maps/Assistant entender agora, mas o Gemini poderia tornar isso possível.
Produtividade rápida
Uma coisa que estamos começando a ver que Bard é capaz de fazer é criar tabelas no Planilhas, papéis no Documentos e e-mails no Gmail usando apenas comandos de voz. Com Gêmeos, porém, isso pode se tornar incrivelmente poderoso.
Imagine ser capaz de gravar uma reunião com o Gravador e depois pedir ao Bardo/Assistente para criar uma tabela com todos os principais pontos de dados discutidos. Ou imagine que o Gmail cancele automaticamente sua inscrição em qualquer lista de e-mail que você não tenha aberto nos últimos 90 dias. Você pode até redigir um relatório no Documentos e solicitar que ele seja formatado em um estilo específico, como o estilo Chicago ou o livro de estilo da Associated Press, o que pode economizar muito tempo.
Quais recursos do Gemini você está mais animado para ver no Pixel? Quais recursos você espera ver no futuro? Deixe-nos saber nos comentários!