PRORROGAMOS! Assine a partir de 1,50/semana

Imagen: como funciona a inteligência artificial do Google que transforma texto em imagem

Os resultados da nova ferramenta impressionam. Mas ela ainda vai demorar para ficar disponível ao público. Entenda por quê.

Por Leo Caparroz
Atualizado em 9 ago 2022, 14h11 - Publicado em 25 Maio 2022, 20h10

No mundo da inteligência artificial, existem os chamados geradores texto-imagem. É um nome bem autoexplicativo: baseado na frase que o usuário digita, o sistema devolve uma imagem correspondente ao que foi escrito.

Até então, o líder no campo desse tipo de programa era o DALL-E, software criado pelo laboratório OpenAi. Agora, o Google resolveu entrar na jogada com o Imagen, anunciado na última terça (24).

O Imagen funciona da mesma forma que os outros geradores: com base em um texto, ele gera uma imagem. Na página dedicada ao programa, ele é descrito como tendo um “grau de fotorrealismo sem precedentes e uma profunda compreensão de linguagem”. De fato, basta observar as imagens divulgadas pela empresa para entender o potencial da nova ferramenta:

Duas imagens feitas pela Imagen, inteligência artificial do Google.
Alguns exemplos de imagens geradas pelo Imagen: a legenda embaixo é a tradução do texto em inglês que originou a imagem. (Google/Reprodução)
Duas imagens feitas pela Imagen, inteligência artificial do Google.
As imagens são geradas a partir de frases de variados graus de complexidade. (Google/Reprodução)
Continua após a publicidade

Segundo o Google, o Imagen produz imagens melhores do que o DALL-E. Para chegar a essa conclusão, a empresa criou uma métrica de comparação, chamada de DrawBench. Não é nada muito complexo: eles usaram o mesmo texto para criar imagens em diversos geradores. As produções foram submetidas a juízes humanos, que escolheram suas preferidas. E os resultados do Imagen foram escolhidos mais vezes do que os dos concorrentes.

Os problemas dos Imagen

Apesar dos resultados sobre o Imagen impressionarem, é preciso cautela. Afinal, as imagens divulgadas foram escolhidas a dedo para mostrar o melhor da capacidade do software – e podem não representar o resultado médio dos testes.

Outro problema do Imagen: mesmo com um gigantesco potencial artístico e criativo, o programa poderia ser usado para gerar fake news e desinformação assim como tem acontecido com os deep fakes.

Continua após a publicidade

O time do Google também chama atenção para problemas causados pela base de dados do projeto. Vamos por partes: sistemas assim funcionam por meio do machine learning (“aprendizado de máquina”, em inglês). O software é exposto a uma quantidade imensa de dados (no caso dos geradores texto-imagem, textos e imagens relacionadas a eles). O programa, então, estuda esses dados para encontrar padrões (associar a palavra “bola” a imagens com diversos tipos de bola, por exemplo).

O objetivo é que, com esse aprendizado, o programa possa replicar esses padrões de acordo com a demanda do usuário. Se eu digitar “bola de futebol americano”, ele precisa não apenas entender que eu quero a imagem de uma bola, mas que é uma bola oval marrom com a costura aparente.

Para criar imagens tão complexas como as que você viu acima, o Imagen, claro, precisa de uma quantidade gigante de dados. E quanto maior esse volume, mais difícil é filtrá-lo. E é aí que está o problema: ao absorver essas informações de bancos da internet, as máquinas aprendem a carregar consigo os mesmos preconceitos e estereótipos que se espalham na rede.

Continua após a publicidade

“Existe o risco de que o Imagen tenha codificado estereótipos e representações prejudiciais, o que justifica nossa decisão de não liberar o Imagen para uso público,” disse a equipe do projeto em sua página oficial. Após uma avaliação preliminar, a empresa identificou “vários preconceitos e estereótipos sociais” incorporados pelo Imagen, “incluindo uma tendência em gerar imagens de pessoas com tons de pele mais claros e uma inclinação em retratar diferentes profissões de acordo com estereótipos de gênero ocidentais”.

Duas imagens feitas pela Imagen, inteligência artificial do Google.
O Imagen também se mostra capaz de criar composições com elementos ficcionais. (Google/Reprodução)

É por essas e outras que o Imagen ainda não tem previsão de lançamento para o público. O Google se comprometeu a consertar “esses desafios e limitações em trabalhos futuros”. Espera-se que, com novas atualizações, o programa se torne uma ferramenta segura para gerar imagens incríveis a partir de textos simples.

Compartilhe essa matéria via:

Publicidade


Matéria exclusiva para assinantes. Faça seu login

Este usuário não possui direito de acesso neste conteúdo. Para mudar de conta, faça seu login

Black Friday

A melhor notícia da Black Friday

BLACK
FRIDAY
Digital Completo
Digital Completo

Acesso ilimitado ao site, edições digitais e acervo de todos os títulos Abril nos apps*

Apenas 5,99/mês*

ou
BLACK
FRIDAY

MELHOR
OFERTA

Impressa + Digital
Impressa + Digital

Receba Super impressa e tenha acesso ilimitado ao site, edições digitais e acervo de todos os títulos Abril nos apps*

a partir de 10,99/mês

ou

*Acesso ilimitado ao site e edições digitais de todos os títulos Abril, ao acervo completo de Veja e Quatro Rodas e todas as edições dos últimos 7 anos de Claudia, Superinteressante, VC S/A, Você RH e Veja Saúde, incluindo edições especiais e históricas no app.
*Pagamento único anual de R$71,88, equivalente a 5,99/mês.

PARABÉNS! Você já pode ler essa matéria grátis.
Fechar

Não vá embora sem ler essa matéria!
Assista um anúncio e leia grátis
CLIQUE AQUI.