
Em novembro, testei os recursos de geração de imagens dentro do Gemini do Google, que foi alimentado pelo modelo Imagen 3. Enquanto eu gostava, encontrei suas limitações rapidamente. O Google lançou recentemente seu sucessor – Imagen 4 – e eu tenho colocado seu ritmo nas últimas duas semanas.
Eu acho que a nova versão é definitivamente uma melhoria, pois alguns dos problemas que tive com a Imagen 3 agora se foram. Mas algumas frustrações ainda permanecem, o que significa que a nova versão não é tão boa quanto eu gostaria.
Com que frequência você cria imagens com IA?
7 votos
Então, o que melhorou?

A qualidade das imagens produzidas geralmente melhorou, embora a melhoria não seja enorme. O Imagen 3 já era geralmente bom em criar imagens de pessoas, animais e paisagens, mas a nova versão produz consistentemente imagens mais nítidas e detalhadas.
Quando se trata de gerar imagens de pessoas-o que só é possível com Gêmeos avançados-eu tinha problemas persistentes com o Imagen 3, onde criaria fotos de aparência de desenho animado, mesmo quando não estava pedindo esse estilo específico. O que ele mudou para mudar a imagem para algo mais realista foi frequentemente uma batalha perdida. Não experimentei nada disso com o Imagen 4. Todas as imagens de pessoas que ele gera parecem muito profissionais – talvez um pouco demais, o que é algo em que tocaremos mais tarde.
Uma das minhas maiores frustrações com o modelo mais antigo foi o controle limitado sobre as proporções de aspecto. Muitas vezes me senti preso com imagens quadradas 1: 1, que limitavam severamente seu caso de uso. Eu não podia usá -los para publicações on -line, e imprimi -las para uma estrutura fotográfica padrão estava fora de questão.
Enquanto o Imagen 4 ainda padrão é uma proporção de 1: 1, agora posso simplesmente solicitar que ele use um diferente, como 16: 9, 9:16 ou 4: 3. Esse é o recurso que eu esperava, pois torna as imagens criadas muito mais versáteis e utilizáveis.
O Imagen 4 também funciona muito mais suavemente. Embora eu não ache que seja visivelmente mais rápido – embora um modelo mais rápido esteja em andamento – há muito menos erros. Com a versão anterior, Gemini às vezes mostrava uma mensagem de erro, dizendo que não poderia produzir uma imagem por um motivo desconhecido. Não recebi nenhum daqueles com Imagen 4. Ele apenas funciona.
Ainda parece um pouco retoqueado demais
Embora o Imagen 4 produz imagens melhores, seja mais confiável e permite diferentes proporções, alguns dos problemas que encontrei ao testar seu antecessor ainda estão presentes.
Meu principal problema é que as imagens geralmente não são tão realistas quanto eu gostaria, especialmente ao criar close-ups de pessoas e animais. As imagens tendem a sair bastante saturadas, e muitas apresentam um efeito proeminente de bokeh que obscurece profissionalmente os antecedentes. Todos parecem ter sido levados por um fotógrafo com 15 anos de experiência, em vez de mim, apenas apontando uma câmera para o meu gato e pressionando o obturador.
Claro, eles parecem bons, mas um “modo casual” seria uma adição fantástica – algo mais realista, onde a iluminação não é perfeita e o assunto não está posando como um modelo. Aprendi Gemini a tornar uma imagem mais realista, removendo o efeito bokeh e geralmente tornando -a menos perfeita. A IA tentou, mas depois de solicitar três ou quatro vezes na mesma imagem, parecia atingir seu limite e disse que não poderia fazer melhor. Cada nova imagem que produzia era um pouco mais casual, mas ainda era bastante polida, claramente sugerindo que foi gerada pela IA.
Você pode ver isso nas imagens acima, indo da esquerda para a direita. O primeiro inclui um forte efeito bokeh, e o homem tem uma pele muito clara, enquanto os outros dois progridem para o homem parecendo mais velho e mais velho, além de mais cansado. Ele até começou a ficar um pouco careca na última imagem. Não é o que eu realmente quis dizer ao levar Gemini a tornar a imagem mais realista, embora seja mais casual.
O Imagen 4 faz um trabalho muito melhor com imagens aleatórias, como paisagens e skylines da cidade. Essas imagens, tiradas de longe, não incluem tantos detalhes em close, então parecem mais genuínos. Ainda assim, pode ser um sucesso ou um golpe. Uma imagem da Sydney Opera House parece ótima, embora a saturação seja um pouco esbarrada-a grama é verde extra e a água é um azul perfeito. Mas quando pedi uma foto do Grand Canyon, parecia completamente artificial e não enganava ninguém a pensar que era uma foto real. Ele teve um desempenho melhor após algumas tentativas, no entanto.
A edição é melhor, mas não está lá
Uma das minhas queixas com a versão anterior foi sua edição desajeitada. Quando solicitado a mudar algo menor – como a cor de um chapéu – a IA faria isso, mas também geraria uma imagem nova e completamente diferente. O cenário ideal seria criar uma imagem e, em seguida, poder editar todos os detalhes com precisão, como mudar uma peça de roupa, adicionar um item específico ou alterar as condições climáticas, deixando todo o resto exatamente como está.
Imagen 4 é melhor nesse sentido, mas não muito. Quando o levantei a alterar a cor de uma jaqueta para azul, ela criou uma nova imagem. No entanto, solicitando especificamente para manter todos os outros detalhes iguais, ele conseguiu manter muito do cenário e o assunto do original. Foi o que aconteceu nos exemplos acima. A mulher na terceira imagem era a mesma, e ela parecia estar em uma sala semelhante, mas sua pose e o ângulo da câmera eram diferentes, tornando-a mais uma reflexão do que uma edição.
Aqui está outro exemplo de um gato comendo um picolé. Eu levei a Gemini a mudar a cor do picolé, e ele fez, e isso manteve muitos detalhes. O gato é o mesmo, assim como a maior parte do fundo. Mas as orelhas do gato estão agora saindo, e o chapéu é um pouco diferente. Ainda assim, uma boa tentativa.
Apesar de suas deficiências, o Imagen 4 é uma ótima ferramenta
Mesmo com seus problemas e uma longa lista de desejos da funcionalidade ausente, o Imagen 4 ainda está entre os melhores geradores de imagens de IA disponíveis. A maioria dos problemas que mencionei também está presente em outro software de geração de imagem da IA, por isso não é como se Gemini estivesse por trás da competição. Parece que existem obstáculos técnicos significativos que precisam ser superados antes que esses tipos de ferramentas possam atingir o próximo nível de precisão e realismo.
Outras limitações ainda estão em vigor, como a incapacidade de criar imagens de pessoas famosas ou gerar conteúdo que viola as diretrizes de segurança do Google. Se isso é bom ou ruim é uma questão de opinião. Para usuários que buscam menos restrições, existem alternativas como Grok.
Você já experimentou a última geração de imagens em Gêmeos? Deixe -me saber seus pensamentos nos comentários.