Tecnologia

Inteligencia Artificial consegue reconstruir rostos apenas a partir da voz

Cientistas do MIT treinam algoritmo para associar sinais vocais e traços faciais específicos – e, assim, "adivinhar" a aparência de quem está falando.

Por Ingrid Luisa
17 jun 2019, 18h48

Nossa vida está cheia de imagens sem rosto. Carros de som com anúncios, promoções em áudio dentro de lojas de departamento, narração de trailers, a voz que dita as estações dentro do metrô. Enquanto nosso cérebro procura imaginar esses rostos, um grupo de cientistas do Instituto de Tecnologia de Massachusetts (MIT) foi além: criou um inteligencia artificial que consegue reconstruir rostos utilizando apenas a voz.

Funciona assim: a equipe treinou uma AI com a ajuda de milhões de clipes on-line, onde apareceram mais de 100.000 falantes diferentes. Chamada de Speech2Face, a tecnologia usou esse conjunto de dados para determinar pontos em comum entre sinais vocais e características faciais específicas. Depois disso, gerou imagens fotorrealistas de indivíduos com expressões neutras.

Os cientistas explicam no estudo que idade, sexo, a forma da boca, tamanho dos lábios, estrutura óssea, linguagem, sotaque, velocidade e pronúncia são fatores que influenciam a mecânica da fala. E, com todas essas informações, é possível reconstruir um rosto. Veja na imagem abaixo o que a AI é capaz de fazer:

Obviamente, características mutáveis da aparência física como penteados, barba e outros detalhes são impossíveis de se prever somente a partir da voz de uma pessoa. Os pesquisadores insistem que esse nem era o objetivo: “não queríamos prever uma imagem reconhecível da face exata, mas sim capturar imagens dominantes, traços faciais da pessoa que estão correlacionados com o discurso delas”.

Continua após a publicidade

Além disso, o algoritmo ainda tem algumas falhas. Já foi apontado que o modelo tem dificuldade de analisar possíveis variações de língua. Por exemplo, quando ouviu um áudio de um asiático falando chinês, o Speech2Face produziu uma face da etnia correta, mas quando o mesmo indivíduo foi gravado falando inglês, a IA gerou a imagem de um homem branco.

Em outros casos, homens que falam mais fino, com um voz de “alta frequência”, incluindo crianças, foram identificados erroneamente como mulheres – cerca de 6% dos rostos criados foram do sexo errado. Isso revela um certo viés de gênero da tecnologia, associando pessoas de vozes grossas com homens e de voz mais aguda com mulheres.

Como os dados usados no treinamento da IA foram em grande parte derivados de vídeos educacionais postados no YouTube, os pesquisadores ainda apontam que o algoritmo falha em “representar igualmente toda a população mundial”.

No estudo, os cientistas também afirmam que essa tecnologia poderia um dia encontrar uma série de aplicações úteis, como a geração de rostos em chamadas de vídeo sem a necessidade de câmeras. Para não dizer “isso é muito Black Mirror”… estamos efetivamente chegando a um nível de ficção científica que nem a própria ficção científica pensou em prever.