TL;DR
- O Google está trabalhando no Gemini, seu modelo básico de IA de próxima geração que pode combinar texto conversacional com geração de imagens.
- A empresa contratou os principais membros da equipe DeepMind e Google Brain para trabalhar nisso.
- O Gemini pode ser lançado para desenvolvedores ainda neste outono e ser integrado a vários produtos do Google para consumidores.
A IA tem sido a palavra da moda para 2023, à medida que as empresas competem entre si para encontrar maneiras inovadoras de usar a IA. Vimos a Microsoft assumir a liderança com a integração do ChatGPT ao Bing Chat. Isso fez com que muitos líderes de inovação lutassem para proteger sua posição. O Google reagiu com o lançamento do Google Bard e a integração da IA em vários de seus produtos voltados para o consumidor, mas parece que a empresa tem ainda mais a oferecer com o que espera fazer com a IA na forma do Gemini.
De acordo com um relatório publicado pela A informação citando uma fonte anônima, o Google está trabalhando em seu maior projeto de IA até agora na forma de “Gemini”, que pode ser lançado ainda neste outono. O Gemini é o modelo básico de IA de próxima geração da empresa, que compreende um grupo de grandes modelos de aprendizado de máquina.
Com o Gemini, o Google espera superar a concorrência que se concentrou principalmente em um meio singular para seus grandes modelos de linguagem. Ele pode combinar recursos de texto conversacional com geração de imagens de IA, tornando-o adequado para casos de uso mais gerais.
O Gemini seria, portanto, não apenas capaz de gerar texto como o ChatGPT, mas também criar imagens contextuais e, com sorte, ir além disso. No futuro, poderia ser usado para analisar gráficos, criar gráficos com descrições de texto e controlar software com comandos de texto ou voz.
O Google também está usando transcrições de vídeos do YouTube para treinar Gêmeos. Modelos treinados em vídeos do YouTube podem fornecer conselhos com base no conteúdo do vídeo, como ajudar mecânicos a diagnosticar um problema com base em vídeos de conserto de carros, por exemplo. O uso de conteúdo de vídeo do YouTube também pode ajudar o Google a desenvolver software de conversão de texto em vídeo.
No entanto, os advogados da empresa monitoram de perto os materiais de treinamento para evitar treinamento sobre materiais protegidos por direitos autorais. Em um caso, os advogados fizeram com que os pesquisadores removessem os dados de treinamento dos livros didáticos devido a preocupações sobre a resistência dos detentores de direitos autorais.
A empresa poderia integrar o Gemini em seu conjunto de produtos e serviços, como Bard, Google Docs e Slides. Podemos esperar ver algum tipo de lançamento de desenvolvedor para o Gemini antes do final do ano, embora a empresa possa começar a usá-lo em alguns produtos de consumo antes disso. Os desenvolvedores podem esperar algum acesso limitado ao Gemini por meio do Google Cloud Platform.
Para atingir esses objetivos e vencer a concorrência, o Google teria reunido vários membros de suas equipes Google Brain e DeepMind para trabalhar no Gemini. Isso inclui o cofundador do Google, Sergey Brin, que é considerado fundamental na avaliação e treinamento dos modelos Gemini.