Cientistas usam YouTube e podcasts para fazer IA falar como uma pessoa
Robôs soam artificiais porque não incorporam vários detalhes da fala humana: cadência, pausas, maneirismos ("hum", "ahn", "né"). Mas um novo software acaba de conseguir reproduzir isso.
Existem vários programas que convertem texto para fala, chamados em inglês de “text-to-speech” (TTS). O Google Tradutor é um deles: ao traduzir uma palavra, ele te dá a opção de escutar a sua pronúncia.
Esse tipo de conversão é possível porque alguém gravou todos os fonemas (os sons que as letras formam). Para continuar no exemplo do Google: a empresa foi lá e pagou alguém para passar horas balbuciando em um estúdio. Na hora de reproduzir a fala, basta que o programa reconheça os fonemas necessários e monte a palavra (ou a frase).
Qualquer pessoa que usou um GPS sabe que programas assim não costumam soar nada naturais – a fala é robótica e não tem a entonação de uma pessoa numa conversa normal. E tudo bem: o objetivo do GPS e passar instruções claras ao motorista. Não tem problema que o ritmo da voz seja do jeito que é.
Para criar um sistema text-to-speech baseado em inteligência artificial, é preciso calibrar o software, expondo-o a falas humanas. Dessa forma, ele reconhece os padrões – e passa a reproduzi-los. O problema é que a maioria desses programas essas falas “encenadas”, com alguém lendo fonemas. O resultado, artificial, não lembra discursos naturais, com cadências, pausas e maneirismos (“hum”, “ahn”, “né”…).
Mas há pessoas dedicadas a criar uma inteligência artificial (IA) que realmente simule os trejeitos da fala humana. Um exemplo é o grupo de pesquisadores da Carnegie Mellon University, nos EUA, que usou quase 900 horas de conversas extraídas do YouTube e de podcasts para treinar uma IA de conversão de texto em fala.
Como funciona o programa
Primeiro, o usuário precisa enviar um exemplo de fala, para que o programa consiga imitar a voz. Um exemplo:
O que o modelo faz é dividir os novos dados de fala em várias partes. Depois, ele usa uma rede neural para produzir novas vocalizações, prevendo qual parte (um fonema ou um momento de silêncio, por exemplo)parte da fala tem maior probabilidade de vir em seguida – de forma semelhante a como funcionam as IAs geradoras de texto, como o ChatGPT.
O usuário, então, digita um comando de texto para que o áudio fake seja gerado. Ele pode, inclusive, escrever os maneirismos que deseja que apareçam. O resultado é esse:
Resultados
Produzir a vocalização assim, quebrando-a em diversas partes, torna o modelo mais rápido do que os outros, que geram sequências inteiras de uma só vez. Pessoas recrutadas por uma plataforma online avaliaram a naturalidade do discurso artificial em uma escala de 1 a 5 – e a pontuação média foi 3,89. Esse é o melhor resultado já conquistado por outras vozes de IA.
Mas é claro: embora o modelo possa produzir uma fala que soe bastante natural, os pesquisadores admitem que o programa ainda é apenas uma prova de conceito – e que ele pode ser aprimorado com mais horas de podcasts e vídeos.