Ciência, Tecnologia

Cientistas usam YouTube e podcasts para fazer IA falar como uma pessoa

Robôs soam artificiais porque não incorporam vários detalhes da fala humana: cadência, pausas, maneirismos ("hum", "ahn", "né"). Mas um novo software acaba de conseguir reproduzir isso.

Por Leo Caparroz
Atualizado em 12 mar 2023, 19h33 - Publicado em 12 mar 2023, 19h32

Ondas sonoras de áudio em círculos. — (AerialPerspective Images/Getty Images)

Existem vários programas que convertem texto para fala, chamados em inglês de “text-to-speech” (TTS). O Google Tradutor é um deles: ao traduzir uma palavra, ele te dá a opção de escutar a sua pronúncia.

Esse tipo de conversão é possível porque alguém gravou todos os fonemas (os sons que as letras formam). Para continuar no exemplo do Google: a empresa foi lá e pagou alguém para passar horas balbuciando em um estúdio. Na hora de reproduzir a fala, basta que o programa reconheça os fonemas necessários e monte a palavra (ou a frase).

Qualquer pessoa que usou um GPS sabe que programas assim não costumam soar nada naturais – a fala é robótica e não tem a entonação de uma pessoa numa conversa normal. E tudo bem: o objetivo do GPS e passar instruções claras ao motorista. Não tem problema que o ritmo da voz seja do jeito que é.

Para criar um sistema text-to-speech baseado em inteligência artificial, é preciso calibrar o software, expondo-o a falas humanas. Dessa forma, ele reconhece os padrões – e passa a reproduzi-los. O problema é que a maioria desses programas essas falas “encenadas”, com alguém lendo fonemas. O resultado, artificial, não lembra discursos naturais, com cadências, pausas e maneirismos (“hum”, “ahn”, “né”…).

Mas há pessoas dedicadas a criar uma inteligência artificial (IA) que realmente simule os trejeitos da fala humana. Um exemplo é o grupo de pesquisadores da Carnegie Mellon University, nos EUA, que usou quase 900 horas de conversas extraídas do YouTube e de podcasts para treinar uma IA de conversão de texto em fala.

Como funciona o programa

Primeiro, o usuário precisa enviar um exemplo de fala, para que o programa consiga imitar a voz. Um exemplo:

Continua após a publicidade

O que o modelo faz é dividir os novos dados de fala em várias partes. Depois, ele usa uma rede neural para produzir novas vocalizações, prevendo qual parte (um fonema ou um momento de silêncio, por exemplo)parte da fala tem maior probabilidade de vir em seguida – de forma semelhante a como funcionam as IAs geradoras de texto, como o ChatGPT.

O usuário, então, digita um comando de texto para que o áudio fake seja gerado. Ele pode, inclusive, escrever os maneirismos que deseja que apareçam. O resultado é esse:

Continua após a publicidade

Resultados

Produzir a vocalização assim, quebrando-a em diversas partes, torna o modelo mais rápido do que os outros, que geram sequências inteiras de uma só vez. Pessoas recrutadas por uma plataforma online avaliaram a naturalidade do discurso artificial em uma escala de 1 a 5 – e a pontuação média foi 3,89. Esse é o melhor resultado já conquistado por outras vozes de IA.

Mas é claro: embora o modelo possa produzir uma fala que soe bastante natural, os pesquisadores admitem que o programa ainda é apenas uma prova de conceito – e que ele pode ser aprimorado com mais horas de podcasts e vídeos.