Black Friday: Assine a partir de 1,49/semana
Continua após publicidade

Cientistas usam YouTube e podcasts para fazer IA falar como uma pessoa

Robôs soam artificiais porque não incorporam vários detalhes da fala humana: cadência, pausas, maneirismos ("hum", "ahn", "né"). Mas um novo software acaba de conseguir reproduzir isso.

Por Leo Caparroz
Atualizado em 12 mar 2023, 19h33 - Publicado em 12 mar 2023, 19h32

Existem vários programas que convertem texto para fala, chamados em inglês de “text-to-speech” (TTS). O Google Tradutor é um deles: ao traduzir uma palavra, ele te dá a opção de escutar a sua pronúncia.

Esse tipo de conversão é possível porque alguém gravou todos os fonemas (os sons que as letras formam). Para continuar no exemplo do Google: a empresa foi lá e pagou alguém para passar horas balbuciando em um estúdio. Na hora de reproduzir a fala, basta que o programa reconheça os fonemas necessários e monte a palavra (ou a frase).

Qualquer pessoa que usou um GPS sabe que programas assim não costumam soar nada naturais – a fala é robótica e não tem a entonação de uma pessoa numa conversa normal. E tudo bem: o objetivo do GPS e passar instruções claras ao motorista. Não tem problema que o ritmo da voz seja do jeito que é.

Para criar um sistema text-to-speech baseado em inteligência artificial, é preciso calibrar o software, expondo-o a falas humanas. Dessa forma, ele reconhece os padrões – e passa a reproduzi-los. O problema é que a maioria desses programas essas falas “encenadas”, com alguém lendo fonemas. O resultado, artificial, não lembra discursos naturais, com cadências, pausas e maneirismos (“hum”, “ahn”, “né”…).

Mas há pessoas dedicadas a criar uma inteligência artificial (IA) que realmente simule os trejeitos da fala humana. Um exemplo é o grupo de pesquisadores da Carnegie Mellon University, nos EUA, que usou quase 900 horas de conversas extraídas do YouTube e de podcasts para treinar uma IA de conversão de texto em fala.

Como funciona o programa

Primeiro, o usuário precisa enviar um exemplo de fala, para que o programa consiga imitar a voz. Um exemplo:

Continua após a publicidade

O que o modelo faz é dividir os novos dados de fala em várias partes. Depois, ele usa uma rede neural para produzir novas vocalizações, prevendo qual parte (um fonema ou um momento de silêncio, por exemplo)parte da fala tem maior probabilidade de vir em seguida – de forma semelhante a como funcionam as IAs geradoras de texto, como o ChatGPT.

O usuário, então, digita um comando de texto para que o áudio fake seja gerado. Ele pode, inclusive, escrever os maneirismos que deseja que apareçam. O resultado é esse:

Continua após a publicidade

Resultados

Produzir a vocalização assim, quebrando-a em diversas partes, torna o modelo mais rápido do que os outros, que geram sequências inteiras de uma só vez. Pessoas recrutadas por uma plataforma online avaliaram a naturalidade do discurso artificial em uma escala de 1 a 5 – e a pontuação média foi 3,89. Esse é o melhor resultado já conquistado por outras vozes de IA.

Mas é claro: embora o modelo possa produzir uma fala que soe bastante natural, os pesquisadores admitem que o programa ainda é apenas uma prova de conceito – e que ele pode ser aprimorado com mais horas de podcasts e vídeos.

Compartilhe essa matéria via:
Publicidade

Matéria exclusiva para assinantes. Faça seu login

Este usuário não possui direito de acesso neste conteúdo. Para mudar de conta, faça seu login

Black Friday

A melhor notícia da Black Friday

BLACK
FRIDAY
Digital Completo
Digital Completo

Acesso ilimitado ao site, edições digitais e acervo de todos os títulos Abril nos apps*

Apenas 5,99/mês

ou
BLACK
FRIDAY

MELHOR
OFERTA

Impressa + Digital
Impressa + Digital

Receba Super impressa e tenha acesso ilimitado ao site, edições digitais e acervo de todos os títulos Abril nos apps*

a partir de 10,99/mês

ou

*Acesso ilimitado ao site e edições digitais de todos os títulos Abril, ao acervo completo de Veja e Quatro Rodas e todas as edições dos últimos 7 anos de Claudia, Superinteressante, VC S/A, Você RH e Veja Saúde, incluindo edições especiais e históricas no app.
*Pagamento único anual de R$71,88, equivalente a 5,99/mês.

PARABÉNS! Você já pode ler essa matéria grátis.
Fechar

Não vá embora sem ler essa matéria!
Assista um anúncio e leia grátis
CLIQUE AQUI.