Testei o sofisticado gerador de imagens do Google e descobri rapidamente seus limites

Seu veículo Ford pode estar recebendo uma grande atualização do Android Auto

O Google Maps está recebendo ajuda do Waze para alertá-lo sobre perigos nas estradas

1 de dezembro de 2024

2024 passou sem o recurso de smartwatch que eu mais queria

1 de dezembro de 2024

Imagen 3 é o gerador de imagens de IA do Google, que foi anunciado em maio na conferência de desenvolvedores de I/O da empresa. Foi lançado com capacidade limitada nos EUA em agosto, mas foi disponibilizado para usuários gratuitos do Gemini no mês passado. Tenho usado-o desde então para criar todos os tipos de imagens e, embora seja uma ferramenta impressionante no geral, tem várias limitações que atrapalham a experiência geral.

É aqui que o Imagen 3 tem dificuldades

O primeiro limite a ter em conta é que não é possível gerar imagens de pessoas, pelo menos com uma conta Gemini gratuita. Isso não se aplica apenas à criação de imagens de pessoas famosas, o que muitas ferramentas de geração de imagens não permitem, mas de pessoas em geral. Portanto, um prompt como “crie uma imagem de duas pessoas aleatórias dançando” não retornará nenhum resultado. Para referência, ChatGPT também possui esse limite para seu nível gratuito.

Você pode criar imagens de pessoas se atualizar para o Gemini Advanced.

No entanto, você pode criar imagens de pessoas – exceto famosas – se optar por uma assinatura Gemini Advanced. Eu experimentei e é um acerto e erro. Embora possa gerar imagens tão realistas que é difícil dizer se são geradas por IA ou não, às vezes os resultados que produz são abaixo da média. Confira os dois exemplos abaixo. O da esquerda parece muito realista e parece ter sido tirado por um fotógrafo profissional, enquanto o outro parece apenas um desenho animado. Mesmo ao solicitar várias vezes que a ferramenta tornasse a foto mais realista, as alterações feitas foram mínimas.

Falando em fotógrafos profissionais, vamos ao segundo limite ou questão que vejo no Imagen 3. Mesmo ao produzir uma imagem realista, seja de uma pessoa, um animal ou um objeto, o resultado parece profissional em vez de casual. Cada imagem é perfeita, com o efeito bokeh frequentemente adicionado para torná-la mais atraente. Cada imagem que o Imagine 3 cria parece ter sido bastante editada, o que é bom se esse é o visual que você está procurando, mas ter a capacidade de fazer as imagens parecerem mais casuais seria ótimo.

Acho que às vezes as melhores fotos são aquelas que estão cruas. Aquelas não editadas que você tirou sem pensar muito quando a iluminação não estava perfeita e as pessoas que você capturou nem sabiam que você tirou a foto. É aí que o Imagine 3 tem dificuldades, embora valha a pena mencionar que isso é verdade para quase todos os geradores de imagens de IA que existem.

Isso me leva ao terceiro grande problema do Imagen, que é a edição das imagens criadas. Se eu criar uma imagem engraçada de um gato usando um chapéu e comendo um picolé e quiser editá-la com um prompt adicional, o Imagen 3 criará uma imagem totalmente nova no Gemini. Então, por exemplo, se eu gostar da imagem criada mas quiser apenas mudar a cor do chapéu de preto para azul, a ferramenta irá gerar uma nova imagem e mudar a cor do chapéu em vez de apenas mudar a cor do chapéu e sair todo o resto como está. É verdade que a nova imagem parece relativamente semelhante à antiga ao usar o prompt correto, mas ainda não é a mesma, o que não é o ideal. Isso torna impossível editar uma imagem com perfeição, especialmente com vários prompts que irão gerar uma nova imagem a cada vez. Confira o exemplo abaixo e veja você mesmo.

Outro problema é que não consigo alterar a proporção. As imagens são criadas na proporção de 1:1 por padrão e não podem ser modificadas. Se eu solicitar que a ferramenta altere para 16:9, o Gemini apenas dirá que sim, mas gerará uma nova imagem com a mesma proporção. No entanto, parece que isso mudará em breve, já que a capacidade de alterar a proporção da imagem já está em desenvolvimento.

Limites à parte, o Imagen 3 é ótimo

Deixe-me deixar claro que não estou tentando destruir o sofisticado gerador de imagens de IA do Google. Só quero destacar os limites que encontrei ao testá-lo para que você saiba o que esperar. Limites à parte, o Imagen 3 é na verdade uma ferramenta muito impressionante. Também experimentei alguns de seus rivais e, embora cada gerador de imagens de IA tenha seus prós e contras, eu diria que o Imagen 3 está entre os melhores que existem. Meu colega Calvin concorda. Ele comparou a ferramenta com os rivais e descobriu que é a melhor que existe em termos de qualidade.

Ainda estamos nos estágios iniciais do conteúdo gerado por IA.

Quando o Imagen 3 acerta, os resultados são excelentes. Imagens de animais, cidades, pessoas e qualquer outra coisa ficam ótimas – se você conseguir conviver com um visual photoshopado. Não acredite apenas na minha palavra. Dê uma olhada na galeria abaixo para ver por si mesmo. E tenha em mente que ainda estamos nos estágios iniciais do conteúdo gerado por IA, então imagine o que o software será capaz de fazer daqui a alguns anos.

Outros limites a ter em conta

Esses são os limites que encontrei ao testar a ferramenta e não esperava – além da incapacidade de gerar imagens de pessoas como um usuário gratuito – embora existam outros limites em vigor que o Google afirma claramente em seu site. Vale a pena listá-los para que você saiba o que esperar.

A Imagen 3 não criará uma imagem que considere inadequada, mesmo com um plano pago. Isso inclui fotos relacionadas a violência, assédio, sexo, discriminação e coisas do gênero. Isso também se aplica a imagens que incentivam atividades perigosas e aquelas com imprecisões factuais prejudiciais que possam representar um risco à segurança de alguém.

Todos esses são limites apropriados, e a maioria das grandes ferramentas de geração de imagens de IA os possui, sem contar o FLUX.1 usado por Grok.