Tecnologia

Inteligência artificial faz qualquer pessoa “dizer” qualquer coisa

Pesquisadores da Universidade de Washington encontraram uma forma de transformar áudios em vídeos incrivelmente realistas - estrelados por ninguém menos que Barack Obama.

Por Guilherme Eler
Atualizado em 11 jul 2017, 18h33 - Publicado em 11 jul 2017, 18h23

A imagem que você verá no vídeo abaixo foi extraída de um discurso de Barack Obama. Nele, o ex-presidente dos Estados Unidos faz considerações sobre diversos assuntos – desde sua experiência como pai até pautas mais urgentes, como terrorismo e a criação de empregos. Nada de novo até aqui, não fosse o fato de essa imagem nunca ter sido registrada por uma câmera de verdade – e sim ser fruto da interpretação de uma inteligência artificial.

Cientistas norte-americanos descobriram uma forma de fazer com que arquivos de áudio se transformem em vídeos – tão realistas quanto uma filmagem de um discurso original de Obama seria. Para fazer o ex-presidente falar dessa forma foi necessário apenas o áudio original, conseguido em um discurso que de fato aconteceu. Depois, só deixar na mão do robô, que faz todo o trabalho duro de lip-sync. Isso faz com que a versão digital de Obama pareça mesmo ter sido gravada diretamente da Casa Branca. Você pode ver o resultado no vídeo a seguir.

“Podemos pegar a voz de qualquer pessoa e transformar em um vídeo de Obama”, explica Steve Seitz, um dos autores do estudo. Para chegar a esse nível de perfeição, a ferramenta teve primeiro de assistir a diversos discursos do ex-presidente. A escolha do político havaiano, segundo os pesquisadores, foi feita pensando na quantidade de material: várias horas de vídeos de Obama discursando sobre temas variados podem ser encontrados com uma busca rápida na internet. Esse intensivão de oratória tornou o computador capaz de captar traços e movimentos característicos que Obama tem em seus pronunciamentos.

Por meio dessa técnica, os cientistas conseguiram um efeito muito importante, indispensável para a reação de quem assiste. Por mais que humanos criados por computador acabem se parecendo com os reais, é muito difícil ter 100% de sucesso – os bonecos virtuais sempre acabam se acusando de alguma forma, fazendo movimentos muito mecânicos ou pouco realistas.

Continua após a publicidade

“Costumamos nos incomodar especialmente com as áreas da boca que não parecem realistas”, conta o co-autor Supasorn Suwajanakorn. “Se você não renderiza os dentes direito ou então faz o queixo se movimentar no momento errado, as pessoas percebem – e tudo acaba parecendo falso”. A inteligência artificial também aprendeu a driblar essa dificuldade, estudando vídeos de entrevistas, filmes, programas de televisão e conversas em vídeo – tudo disponível na internet.

A ferramenta entende os áudios dos vídeos que assiste e os traduz em diferentes configurações de bocas. Fazendo isso, ela consegue recriar no tempo certo os formatos de boca que aprendeu com o áudio, e combiná-los com as referências de vídeo que possui, por ter assistido discursos presidenciais horas à fio. O resultado é essa fala bastante natural.

Segundo os pesquisadores, a técnica pode ser a verdadeira salvação das conversas por vídeo à distância, que passariam a funcionar às mil maravilhas mesmo com uma internet não muito favorável. “Quando você usa o Skype ou o Google Hangouts, pode acontecer de a conexão estar prejudicada e deixar a imagem em baixa definição – e o áudio se manter com boa qualidade”, diz Seitz. “Então, você poder usar o áudio bom para produzir um vídeo de qualidade muito superior. Seria espetacular”, completa. Ou você poderia, é claro, usar a ferramenta para o mau: fazer qualquer pessoa “dizer” qualquer coisa.