Tecnologia

Inteligencia Artificial consegue reconstruir rostos apenas a partir da voz

Cientistas do MIT treinam algoritmo para associar sinais vocais e traços faciais específicos – e, assim, "adivinhar" a aparência de quem está falando.

Por Ingrid Luisa
17 jun 2019, 18h48 •

Nossa vida está cheia de imagens sem rosto. Carros de som com anúncios, promoções em áudio dentro de lojas de departamento, narração de trailers, a voz que dita as estações dentro do metrô. Enquanto nosso cérebro procura imaginar esses rostos, um grupo de cientistas do Instituto de Tecnologia de Massachusetts (MIT) foi além: criou um inteligencia artificial que consegue reconstruir rostos utilizando apenas a voz.

Funciona assim: a equipe treinou uma AI com a ajuda de milhões de clipes on-line, onde apareceram mais de 100.000 falantes diferentes. Chamada de Speech2Face, a tecnologia usou esse conjunto de dados para determinar pontos em comum entre sinais vocais e características faciais específicas. Depois disso, gerou imagens fotorrealistas de indivíduos com expressões neutras.

Os cientistas explicam no estudo que idade, sexo, a forma da boca, tamanho dos lábios, estrutura óssea, linguagem, sotaque, velocidade e pronúncia são fatores que influenciam a mecânica da fala. E, com todas essas informações, é possível reconstruir um rosto. Veja na imagem abaixo o que a AI é capaz de fazer:

Obviamente, características mutáveis da aparência física como penteados, barba e outros detalhes são impossíveis de se prever somente a partir da voz de uma pessoa. Os pesquisadores insistem que esse nem era o objetivo: “não queríamos prever uma imagem reconhecível da face exata, mas sim capturar imagens dominantes, traços faciais da pessoa que estão correlacionados com o discurso delas”.

Continua após a publicidade

Além disso, o algoritmo ainda tem algumas falhas. Já foi apontado que o modelo tem dificuldade de analisar possíveis variações de língua. Por exemplo, quando ouviu um áudio de um asiático falando chinês, o Speech2Face produziu uma face da etnia correta, mas quando o mesmo indivíduo foi gravado falando inglês, a IA gerou a imagem de um homem branco.

Em outros casos, homens que falam mais fino, com um voz de “alta frequência”, incluindo crianças, foram identificados erroneamente como mulheres – cerca de 6% dos rostos criados foram do sexo errado. Isso revela um certo viés de gênero da tecnologia, associando pessoas de vozes grossas com homens e de voz mais aguda com mulheres.

Como os dados usados no treinamento da IA foram em grande parte derivados de vídeos educacionais postados no YouTube, os pesquisadores ainda apontam que o algoritmo falha em “representar igualmente toda a população mundial”.

No estudo, os cientistas também afirmam que essa tecnologia poderia um dia encontrar uma série de aplicações úteis, como a geração de rostos em chamadas de vídeo sem a necessidade de câmeras. Para não dizer “isso é muito Black Mirror”… estamos efetivamente chegando a um nível de ficção científica que nem a própria ficção científica pensou em prever.