O que é Midjourney AI e como funciona?

OpenAI poderia estar desenvolvendo um mecanismo de busca para rivalizar com o Google

As visões gerais de IA da Pesquisa Google estão prestes a ficar ainda piores

21 de maio de 2024

Microsoft revela o futuro da IA em jogos com emocionante demonstração do Minecraft

21 de maio de 2024

Você já desejou poder evocar uma imagem diretamente de sua imaginação? Agora você pode fazer isso em questão de minutos, graças a geradores de imagens como o Midjourney. Não importa se você não tem habilidades artísticas ou nem sequer segurou um pincel na vida. A inteligência artificial pode fazer todo o trabalho pesado – tudo o que você precisa é de um pouco de texto que descreva a imagem que você tem em mente. Mas de onde veio Midjourney de repente e como isso funciona? Aqui está tudo o que você precisa saber.

O que é Midjourney?

Matt Horne / Autoridade Android

Midjourney é um exemplo de IA generativa que pode converter solicitações de linguagem natural em imagens. É apenas um dos muitos geradores de imagens baseados em aprendizado de máquina que surgiram recentemente. Apesar disso, ele se tornou um dos maiores nomes da IA, ao lado do DALL-E e do Stable Diffusion.

Com o Midjourney, você pode criar imagens de alta qualidade a partir de prompts simples baseados em texto. Você também não precisa de nenhum hardware ou software especializado para usá-lo, pois funciona inteiramente por meio do aplicativo de bate-papo Discord. A única desvantagem? Você terá que assinar um plano Midjourney antes de começar a gerar imagens. Isso é diferente de grande parte da concorrência, que geralmente fornece pelo menos algumas gerações de imagens de graça.

Ainda assim, a barreira de entrada com o Midjourney é extremamente baixa e qualquer um pode usá-lo para gerar imagens de aparência real em questão de minutos. Os resultados podem variar de estranhos a visualmente impressionantes, dependendo do prompt.

Midjourney pode gerar imagens impressionantes que parecem extremamente convincentes.

Em alguns casos, as imagens do Midjourney enganaram até especialistas em fotografia e outros domínios. Da mesma forma, você pode ter visto algumas imagens geradas por IA extremamente convincentes nas mídias sociais. Os exemplos vão desde o Papa Francisco vestido com uma jaqueta até Trump supostamente sendo preso dias antes do evento real. Mas também vimos algumas gerações criativas como uma cena de Star Wars no estilo de Wes Anderson (foto acima).

Ao contrário do DALL-E, que é apoiado pelo criador do ChatGPT, OpenAI, o Midjourney se descreve como um projeto autofinanciado e independente. Além disso, não recebeu nenhum financiamento externo até o momento. Por outro lado, a OpenAI levantou até US$ 10 bilhões da Microsoft e de alguns outros investidores. Portanto, dadas as raízes humildes do Midjourney, seus resultados são bastante impressionantes.

Como funciona o Midjourney?

Calvin Wankhede / Autoridade Android

Não sabemos tudo sobre o funcionamento interno do Midjourney porque ele é de código fechado e roda em código proprietário. Dito isso, sabemos o suficiente sobre a tecnologia subjacente para oferecer uma explicação geral.

A Midjourney depende de duas tecnologias de aprendizado de máquina relativamente novas, ou seja, modelos de linguagem ampla e difusão. Você já deve estar familiarizado com o primeiro se já usou chatbots de IA como o ChatGPT. Um grande modelo de linguagem primeiro ajuda o Midjourney a entender o significado de tudo o que você digita em seus prompts. Isso é então convertido no que é conhecido como um vetor, que você pode imaginar como uma versão numérica do prompt. Finalmente, o vetor guia outro processo complexo conhecido como difusão.

Midjourney usa um modelo de difusão para transformar ruído aleatório em bela arte.

A difusão só se tornou popular na última década, o que explica o súbito ataque de geradores de imagem AI. Em um modelo de difusão, você faz um computador adicionar gradualmente ruído aleatório ao seu conjunto de dados de treinamento de imagens. Com o tempo, ele aprende a recuperar a imagem original invertendo o ruído. Com treinamento suficiente, o modelo pode gerar novas imagens por meio da remoção de ruído de uma imagem aleatória.

Então, como é a perspectiva de um gerador de imagens de IA? Quando você insere um prompt de texto como “gatos brancos ambientados em uma Times Square pós-apocalíptica”, ele começa com um campo de ruído visual. Você pode pensar neste primeiro passo como equivalente à estática da televisão. A imagem não se parece com nada neste momento. No entanto, um modelo de IA treinado pode usar difusão latente para subtrair o ruído em etapas. E, eventualmente, produzirá uma imagem que se assemelha a objetos e ideias do mundo real.

Como observação, é também por isso que você normalmente precisa esperar um ou dois minutos para que uma imagem gerada por IA se desenvolva completamente. Se você interromper o processo mais cedo, obterá uma imagem com ruído que não passou por etapas de redução de ruído suficientes.

Quanto custa Midjourney?

Embora tenhamos visto chatbots como ChatGPT e Bing Chat oferecendo uso quase ilimitado de graça, o mesmo não pode ser dito para geradores de imagens. Praticamente todos eles têm alguns limites em vigor, com o Midjourney nem mesmo oferecendo uma avaliação gratuita. Isso ocorre porque cada tarefa de geração de imagem requer muito poder de computação, especificamente unidades de processamento gráfico (GPUs). Além disso, cada GPU possui memória de vídeo finita, que é usada em grandes quantidades para o processo de remoção de ruído.

Portanto, com isso em mente, não é de surpreender que um gerador de imagens de IA de última geração custe algum dinheiro. Temos um guia dedicado aos preços e níveis de assinatura do Midjourney, mas você terá que pagar um mínimo de $ 10 por mês. Isso dá a você 3,3 horas de tempo de GPU, bom para aproximadamente 200 gerações de imagens.

Os planos sofisticados do Midjourney oferecem imagens ilimitadas no modo Relaxado, mas você terá que esperar até 10 minutos. Se você não precisa da melhor qualidade absoluta, recomendamos verificar geradores de imagem AI alternativos. Embora a maioria das opções gratuitas ainda não tenha alcançado o Midjourney, elas ainda são muito divertidas de usar.

perguntas frequentes

Midjourney foi treinado em amostras de imagens existentes, incluindo arte de várias fontes, para gerar novas imagens. Alguns artistas acreditam que os geradores de imagens de IA infringiram seus direitos autorais ao usar seu trabalho para treinamento. No entanto, o outro lado argumenta que o processo de treinamento se enquadra na categoria de uso aceitável.

Não, Midjourney não pode criar um vídeo completo. Mas se você deseja apenas um vídeo do processo de geração de imagem do Midjourney, pode adicionar o parâmetro –video ao final de seus prompts.

O Midjourney usa uma técnica de aprendizado de máquina conhecida como difusão, mas não está claro se é baseado no modelo Stable Diffusion de código aberto.

Não, o Midjourney é uma ferramenta proprietária e de código fechado desenvolvida por uma startup de pesquisa com sede em San Francisco. Visa tornar-se rentável.

Midjourney é de propriedade de uma empresa de pesquisa independente com o mesmo nome. O gerador de imagens foi fundado em São Francisco por David Holz, que também cofundou a empresa de rastreamento manual Leap Motion uma década antes.