O que acabou de acontecer? A tecnologia de geração de imagens avançou rapidamente nos últimos anos, mas conseguir uma renderização de vídeo coerente continua a ser um desafio para os modelos contemporâneos de IA. No entanto, o Google demonstrou recentemente um progresso notável nesta área, apresentando tecnologia significativamente melhorada no campo da geração de vídeo.
O Google acaba de lançar o Lumiere, o mais recente modelo de IA da empresa para criação de vídeos. Lumiere é uma melhoria significativa na síntese de vídeo, afirma o Google, já que a criação de “movimentos realistas, diversos e coerentes” sempre foi um dos principais desafios para a geração de vídeo baseada em IA. Lumiere fornece um modelo de difusão espaço-temporal que aparentemente pode resolver – ou tentar resolver – esse problema.
A mais recente incursão de Mountain View no negócio de IA generativa é boa o suficiente para geração de texto para vídeo, renderização de imagem para vídeo e geração estilizada. Os usuários podem criar um videoclipe completamente novo escrevendo um prompt de texto, fornecendo uma imagem de origem (não importa quão autêntica, realista ou editada seja essa imagem) ou usando uma imagem de referência como estilo de destino.
Lumiere emprega uma nova “arquitetura U-Net Espaço-Tempo” que gera o videoclipe inteiro de uma só vez, por meio de uma única passagem no modelo de IA. Comparada aos modelos existentes, que sintetizam diferentes quadros-chave para o mesmo vídeo, a abordagem do Lumiere pode alcançar resultados de texto para vídeo de última geração, com muito menos estranheza do que antes.
Os recursos adicionais do Lumiere incluem estilização de vídeo, que transforma um vídeo de origem em diferentes materiais, e Cinemagraphs, que fornece uma maneira de animar uma parte limitada e destacada em uma imagem de origem. O recurso Video Inpainting pode alterar partes únicas de um vídeo de origem, como alterar as cores, materiais ou texturas do vestido de uma menina.
Como o Google destaca no documento oficial, o Lumiere pode gerar vídeos de “baixa resolução” 1024×1024 com duração não superior a 5 segundos. Os modelos anteriores de vídeo de IA eram capazes de gerar vídeos mais longos, mas o Google afirma que os usuários preferiam a saída do Lumiere aos modelos de IA existentes. Mountain View diz que Lumiere foi treinado em um conjunto de dados contendo 30 milhões de vídeos junto com suas descrições de texto, embora a origem (ou estado dos direitos autorais) desses vídeos de 5 segundos de origem seja atualmente desconhecida.
O artigo dos pesquisadores do Google destaca um potencial “impacto social” da tecnologia de IA geradora de vídeo como o Lumiere, afirmando que o objetivo principal do modelo é permitir que “usuários novatos” gerem conteúdo visual de novas maneiras criativas e flexíveis. Novas ferramentas para detectar preconceitos e casos de uso “maliciosos” de modelos geradores de vídeo devem, no entanto, ser desenvolvidas o mais rápido possível para evitar estragar a diversão.