Clique e Assine a partir de R$ 9,90/mês

Imagen: como funciona a inteligência artificial do Google que transforma texto em imagem

Os resultados da nova ferramenta impressionam. Mas ela ainda vai demorar para ficar disponível ao público. Entenda por quê.

Por Leo Caparroz Atualizado em 25 Maio 2022, 20h18 - Publicado em 25 Maio 2022, 20h10

No mundo da inteligência artificial, existem os chamados geradores texto-imagem. É um nome bem autoexplicativo: baseado na frase que o usuário digita, o sistema devolve uma imagem correspondente ao que foi escrito.

Até então, o líder no campo desse tipo de programa era o DALL-E, software criado pelo laboratório OpenAi. Agora, o Google resolveu entrar na jogada com o Imagen, anunciado na última terça (24).

O Imagen funciona da mesma forma que os outros geradores: com base em um texto, ele gera uma imagem. Na página dedicada ao programa, ele é descrito como tendo um “grau de fotorrealismo sem precedentes e uma profunda compreensão de linguagem”. De fato, basta observar as imagens divulgadas pela empresa para entender o potencial da nova ferramenta:

Duas imagens feitas pela Imagen, inteligência artificial do Google.
Alguns exemplos de imagens geradas pelo Imagen: a legenda embaixo é a tradução do texto em inglês que originou a imagem. Google/Reprodução
Duas imagens feitas pela Imagen, inteligência artificial do Google.
As imagens são geradas a partir de frases de variados graus de complexidade. Google/Reprodução

Segundo o Google, o Imagen produz imagens melhores do que o DALL-E. Para chegar a essa conclusão, a empresa criou uma métrica de comparação, chamada de DrawBench. Não é nada muito complexo: eles usaram o mesmo texto para criar imagens em diversos geradores. As produções foram submetidas a juízes humanos, que escolheram suas preferidas. E os resultados do Imagen foram escolhidos mais vezes do que os dos concorrentes.

Os problemas dos Imagen

Apesar dos resultados sobre o Imagen impressionarem, é preciso cautela. Afinal, as imagens divulgadas foram escolhidas a dedo para mostrar o melhor da capacidade do software – e podem não representar o resultado médio dos testes.

Continua após a publicidade

Outro problema do Imagen: mesmo com um gigantesco potencial artístico e criativo, o programa poderia ser usado para gerar fake news e desinformação assim como tem acontecido com os deep fakes.

O time do Google também chama atenção para problemas causados pela base de dados do projeto. Vamos por partes: sistemas assim funcionam por meio do machine learning (“aprendizado de máquina”, em inglês). O software é exposto a uma quantidade imensa de dados (no caso dos geradores texto-imagem, textos e imagens relacionadas a eles). O programa, então, estuda esses dados para encontrar padrões (associar a palavra “bola” a imagens com diversos tipos de bola, por exemplo).

O objetivo é que, com esse aprendizado, o programa possa replicar esses padrões de acordo com a demanda do usuário. Se eu digitar “bola de futebol americano”, ele precisa não apenas entender que eu quero a imagem de uma bola, mas que é uma bola oval marrom com a costura aparente.

Para criar imagens tão complexas como as que você viu acima, o Imagen, claro, precisa de uma quantidade gigante de dados. E quanto maior esse volume, mais difícil é filtrá-lo. E é aí que está o problema: ao absorver essas informações de bancos da internet, as máquinas aprendem a carregar consigo os mesmos preconceitos e estereótipos que se espalham na rede.

“Existe o risco de que o Imagen tenha codificado estereótipos e representações prejudiciais, o que justifica nossa decisão de não liberar o Imagen para uso público,” disse a equipe do projeto em sua página oficial. Após uma avaliação preliminar, a empresa identificou “vários preconceitos e estereótipos sociais” incorporados pelo Imagen, “incluindo uma tendência em gerar imagens de pessoas com tons de pele mais claros e uma inclinação em retratar diferentes profissões de acordo com estereótipos de gênero ocidentais”.

Duas imagens feitas pela Imagen, inteligência artificial do Google.
O Imagen também se mostra capaz de criar composições com elementos ficcionais. Google/Reprodução

É por essas e outras que o Imagen ainda não tem previsão de lançamento para o público. O Google se comprometeu a consertar “esses desafios e limitações em trabalhos futuros”. Espera-se que, com novas atualizações, o programa se torne uma ferramenta segura para gerar imagens incríveis a partir de textos simples.

Compartilhe essa matéria via:

Continua após a publicidade

Publicidade

Essa é uma matéria exclusiva para assinantes. Se já é assinante, entre aqui. Assine para ter acesso a esse e outros conteúdos de jornalismo de qualidade.

Essa é uma matéria fechada para assinantes e não identificamos permissão de acesso na sua conta. Para tentar entrar com outro usuário, clique aqui ou adquira uma assinatura na oferta abaixo

Transforme sua curiosidade em conhecimento. Assine a Super e continue lendo

Impressa + Digital

Plano completo da Super. Acesso aos conteúdos exclusivos em todos formatos: revista impressa, site com notícias e revista no app.

Acesso ilimitado ao Site da SUPER, com conteúdos exclusivos e atualizados diariamente.

Receba mensalmente a SUPER impressa mais acesso imediato às edições digitais no App SUPER, para celular e tablet.

a partir de R$ 12,90/mês

MELHOR
OFERTA

Digital

Plano ilimitado para você que gosta de acompanhar diariamente os conteúdos exclusivos no site e ter acesso a edição digital no app.

App SUPER para celular e tablet, atualizado mensalmente.

a partir de R$ 9,90/mês

ou

30% de desconto

1 ano por R$ 82,80
(cada mês sai por R$ 6,90)