Os engenheiros da Carnegie Mellon criaram um robô alimentado por IA que pinta imagens manualmente a partir de prompts de texto, áudio e visual

Em poucas palavras: Pesquisadores da Carnegie Mellon University (CMU) Bot Intelligence Group (BIG) desenvolveram um braço robótico que pode pintar imagens com base em comandos falados, escritos e visuais. O AI é muito semelhante ao DALL-E, exceto que pinta fisicamente a saída em tempo real, em vez de produzir uma imagem digital quase instantânea.

A equipe BIG nomeou o robô FRIDA como uma homenagem à artista mexicana Frida Kahlo e como um acrônimo para Framework and Robotics Initiative for Developing Arts. Atualmente, o robô requer pelo menos alguma entrada contextual e cerca de uma hora para preparar seu estilo de pinceladas.

Os usuários também podem fazer upload de uma imagem para “inspirar” FRIDA e influenciar o resultado, fornecendo descrições em linguagem simples. Por exemplo, dada uma foto do busto de Elon Musk e o prompt falado “bebê soluçando”, a IA criou o retrato abaixo (canto superior esquerdo). Os pesquisadores experimentaram outros tipos de entrada, como deixar a IA ouvir uma música como Dancing Queen, do Abba.

Alguns de nossos novos trabalhos no projeto FRIDA: Robot Synesthesia, pintura a partir de entradas de som e emoção.https://t.co/LrqyGigg5J pic.twitter.com/ouswMrMdyh

— FRIDA Robot Painter (@FridaRobot) 12 de fevereiro de 2023

Carnegie Mellon Ph.D. O aluno e engenheiro-chefe Peter Schaldenbrand rapidamente apontou que FRIDA não pode atuar como um verdadeiro artista. Em outras palavras, o robô não está expressando criatividade.

“FRIDA é um sistema de pintura robótica, mas FRIDA não é uma artista”, disse Schaldenbrand. “FRIDA não está gerando as ideias para se comunicar. FRIDA é um sistema com o qual um artista pode colaborar. O artista pode especificar metas de alto nível para FRIDA, e então FRIDA pode executá-las.”

Os algoritmos do robô não são diferentes daqueles usados no ChatGPT e no DALL-E 2 da OpenAI. É uma rede adversária generativa (GAN) configurada para pintar imagens e avaliar seu desempenho para melhorar sua saída. Teoricamente, a cada pintura, FRIDA deveria interpretar melhor o prompt e seu produto, mas como a arte é subjetiva, quem pode dizer o que é “melhor”.

Curiosamente, FRIDA cria uma paleta de cores única para cada retrato, mas não pode misturar as tintas. Por enquanto, um ser humano deve misturar e fornecer as cores certas. No entanto, uma equipe da Escola de Arquitetura da CMU está trabalhando em um método para automatizar a mistura de tintas. Os alunos do BIG poderiam usar esse método para tornar FRIDA totalmente independente.

O processo de pintura do bot é semelhante ao de um artista e leva horas para gerar uma imagem completa. O braço robótico aplica pinceladas na tela enquanto uma câmera monitora de cima. Ocasionalmente, os algoritmos avaliam a imagem emergente para garantir que ela crie a saída desejada. Se sair do caminho, a IA se ajusta para deixá-lo mais alinhado com o prompt, e é por isso que cada retrato tem suas próprias pequenas falhas.

Os pesquisadores do BIG publicaram recentemente sua pesquisa com o arXiv da Cornell University. A equipe também manteve um Twitter FRIDA conta desde agosto de 2022, com muitas criações do robô e postagens sobre seu progresso. No entanto, FRIDA não está disponível ao público, infelizmente. O próximo projeto da equipe é aproveitar o que aprendeu com FRIDA para desenvolver um robô que esculpe.