Assine SUPER por R$2,00/semana
Continua após publicidade

Imagen: como funciona a inteligência artificial do Google que transforma texto em imagem

Os resultados da nova ferramenta impressionam. Mas ela ainda vai demorar para ficar disponível ao público. Entenda por quê.

Por Leo Caparroz
Atualizado em 9 ago 2022, 14h11 - Publicado em 25 Maio 2022, 20h10
  • Seguir materia Seguindo materia
  • No mundo da inteligência artificial, existem os chamados geradores texto-imagem. É um nome bem autoexplicativo: baseado na frase que o usuário digita, o sistema devolve uma imagem correspondente ao que foi escrito.

    Publicidade

    Até então, o líder no campo desse tipo de programa era o DALL-E, software criado pelo laboratório OpenAi. Agora, o Google resolveu entrar na jogada com o Imagen, anunciado na última terça (24).

    Publicidade

    O Imagen funciona da mesma forma que os outros geradores: com base em um texto, ele gera uma imagem. Na página dedicada ao programa, ele é descrito como tendo um “grau de fotorrealismo sem precedentes e uma profunda compreensão de linguagem”. De fato, basta observar as imagens divulgadas pela empresa para entender o potencial da nova ferramenta:

    Publicidade
    Duas imagens feitas pela Imagen, inteligência artificial do Google.
    Alguns exemplos de imagens geradas pelo Imagen: a legenda embaixo é a tradução do texto em inglês que originou a imagem. (Google/Reprodução)
    Duas imagens feitas pela Imagen, inteligência artificial do Google.
    As imagens são geradas a partir de frases de variados graus de complexidade. (Google/Reprodução)

    Segundo o Google, o Imagen produz imagens melhores do que o DALL-E. Para chegar a essa conclusão, a empresa criou uma métrica de comparação, chamada de DrawBench. Não é nada muito complexo: eles usaram o mesmo texto para criar imagens em diversos geradores. As produções foram submetidas a juízes humanos, que escolheram suas preferidas. E os resultados do Imagen foram escolhidos mais vezes do que os dos concorrentes.

    Os problemas dos Imagen

    Publicidade

    Apesar dos resultados sobre o Imagen impressionarem, é preciso cautela. Afinal, as imagens divulgadas foram escolhidas a dedo para mostrar o melhor da capacidade do software – e podem não representar o resultado médio dos testes.

    Outro problema do Imagen: mesmo com um gigantesco potencial artístico e criativo, o programa poderia ser usado para gerar fake news e desinformação assim como tem acontecido com os deep fakes.

    Publicidade

    O time do Google também chama atenção para problemas causados pela base de dados do projeto. Vamos por partes: sistemas assim funcionam por meio do machine learning (“aprendizado de máquina”, em inglês). O software é exposto a uma quantidade imensa de dados (no caso dos geradores texto-imagem, textos e imagens relacionadas a eles). O programa, então, estuda esses dados para encontrar padrões (associar a palavra “bola” a imagens com diversos tipos de bola, por exemplo).

    Continua após a publicidade

    O objetivo é que, com esse aprendizado, o programa possa replicar esses padrões de acordo com a demanda do usuário. Se eu digitar “bola de futebol americano”, ele precisa não apenas entender que eu quero a imagem de uma bola, mas que é uma bola oval marrom com a costura aparente.

    Para criar imagens tão complexas como as que você viu acima, o Imagen, claro, precisa de uma quantidade gigante de dados. E quanto maior esse volume, mais difícil é filtrá-lo. E é aí que está o problema: ao absorver essas informações de bancos da internet, as máquinas aprendem a carregar consigo os mesmos preconceitos e estereótipos que se espalham na rede.

    “Existe o risco de que o Imagen tenha codificado estereótipos e representações prejudiciais, o que justifica nossa decisão de não liberar o Imagen para uso público,” disse a equipe do projeto em sua página oficial. Após uma avaliação preliminar, a empresa identificou “vários preconceitos e estereótipos sociais” incorporados pelo Imagen, “incluindo uma tendência em gerar imagens de pessoas com tons de pele mais claros e uma inclinação em retratar diferentes profissões de acordo com estereótipos de gênero ocidentais”.

    Publicidade
    Duas imagens feitas pela Imagen, inteligência artificial do Google.
    O Imagen também se mostra capaz de criar composições com elementos ficcionais. (Google/Reprodução)

    É por essas e outras que o Imagen ainda não tem previsão de lançamento para o público. O Google se comprometeu a consertar “esses desafios e limitações em trabalhos futuros”. Espera-se que, com novas atualizações, o programa se torne uma ferramenta segura para gerar imagens incríveis a partir de textos simples.

    Continua após a publicidade

    Compartilhe essa matéria via:

    Publicidade
    Publicidade

    Matéria exclusiva para assinantes. Faça seu login

    Este usuário não possui direito de acesso neste conteúdo. Para mudar de conta, faça seu login

    Domine o fato. Confie na fonte.

    10 grandes marcas em uma única assinatura digital

    MELHOR
    OFERTA

    Digital Completo
    Digital Completo

    Acesso ilimitado ao site, edições digitais e acervo de todos os títulos Abril nos apps*

    a partir de R$ 2,00/semana*

    ou
    Impressa + Digital
    Impressa + Digital

    Receba Super impressa e tenha acesso ilimitado ao site, edições digitais e acervo de todos os títulos Abril nos apps*

    a partir de R$ 12,90/mês

    *Acesso ilimitado ao site e edições digitais de todos os títulos Abril, ao acervo completo de Veja e Quatro Rodas e todas as edições dos últimos 7 anos de Claudia, Superinteressante, VC S/A, Você RH e Veja Saúde, incluindo edições especiais e históricas no app.
    *Pagamento único anual de R$96, equivalente a R$2 por semana.

    PARABÉNS! Você já pode ler essa matéria grátis.
    Fechar

    Não vá embora sem ler essa matéria!
    Assista um anúncio e leia grátis
    CLIQUE AQUI.