Como funciona o DALL-E, site que gera imagens a partir de textos
Uma versão genérica da inteligência artificial estourou nas redes sociais com criações inusitadas. Confira.
A imagem que abre este texto não foi feita por um artista humano. Pelo contrário: foi gerada usando uma inteligência artificial (IA) e um simples comando: “magazine sitting at the beach” – “revista sentada na praia”, em inglês.
A IA em questão é a DALL-E 2, criado pela OpenAI, uma empresa que Elon Musk ajudou a fundar e que faz pesquisas em inteligência artificial. O software gera imagens a partir de textos, modifica imagens já existentes e até cria novas baseadas em um exemplo. O nome é uma brincadeira com as palavras “WALL-E” (do filme da Pixar) com “Dalí” (de Salvador Dalí, pintor surrealista que provavelmente iria se divertir horrores com a ferramenta).
O DALL-E 2 é uma evolução do DALL-E, criado em 2021. O upgrade foi apresentado em abril deste ano e representa uma significativa melhora na produção de imagens, mais realistas e com até quatro vezes mais resolução.
O DALL-E 2 usa o mesmo princípio de qualquer machine learning (“aprendizado de máquina”): a partir de um grande número de dados, a IA é treinada para reconhecer padrões e replicá-los. No caso, o DALL-E pega combinações de imagens e textos guardadas em banco de dados e aprende a reconhecer suas similaridades.
Em seguida, vem a criação. Por meio de um processo chamado “difusão”, ele começa com um conjunto de pontos aleatórios, que serão os pilares da imagem. Aos poucos, o software altera esses pontos conforme reconhece aspectos específicos da imagem.
Problemas de percurso
Se a base de dados não tiver legendas suficientes para um objeto, o DALL-E vai ter dificuldades em reproduzi-lo – se faltarem imagens da bebida “caipirinha”, a IA pode entender como um “caipira pequeno”, por exemplo. Ela também pode se confundir com palavras homônimas, que são iguais na escrita e na fala. Se alguém escrevesse “manga da camisa“, a fruta manga poderia aparecer na imagem.
Além dos problemas linguísticos, o DALL-E também tem algumas questões éticas. A base usada tem um número imenso de imagens vindas da internet – e elas não passam por nenhuma espécie de filtro. Essas imagens, então, podem conter legendas que não estejam relacionadas com o conteúdo. Isso pode gerar erros inofensivos, como fazer o DALL-E entender que uma moto é, na verdade, uma árvore. Mas o problema é que a falta de filtro pode reforçar preconceitos e estereótipos vindos de todos os cantos da internet – e fazer o DALL-E replicá-los.
Por essa e outras razões (como o possível uso da ferramenta para gerar desinformação), o DALL-E 2 ainda é fechado ao público, com acesso restrito a convidados inscritos na OpenAI.
DALL-E mini
“Ora, se o DALL-E tem acesso restrito, por que é que as minhas redes sociais estão cheias de pessoas testando a ferramenta?”, você deve estar se perguntando. Acontece que as imagens que circulam na internet são fruto de uma espécie de genérico do DALL-E 2, o DALL-E mini. Criado pelo francês Boris Dayma, ex-estudante da PUC-Rio, ele é uma versão em código aberto similar ao primeiro DALL-E.
O princípio é o mesmo: texto convertido em imagem. Obviamente, a qualidade entre os resultados gerados por essa versão e o DALL-E 2, mais robusto, é evidente – mas não impediu o público de se divertir com as infinitas possibilidades do programa:
O principal motivo que levou Boris a desenvolver a ferramenta foi a de poder compartilhá-la com o mundo, para que todos pudessem usar. “Muitas vezes você vê artigos que falam de novidades de IA, mas há muitas delas que não são necessariamente reais, ou que têm limites. Quando você tem uma demo, um aplicativo, você pode brincar, tocar e ver de verdade como ela é,” conta em entrevista ao Uol Tilt.
Se tem algo que os usuários realmente estão fazendo é brincar com o DALL-E mini, e há até páginas especializadas em fazer coletâneas dessas criações. Desde crossovers entre desenhos até personagens fictícios em situações reais, o DALL-E mini representa a tecnologia a serviço da criatividade.