Bruno Garattoni

Por Bruno Garattoni

Vencedor de 15 prêmios de Jornalismo. Editor da Super.

Alegando “potenciais riscos”, Meta decide não liberar sua nova IA ao público

Voicebox é capaz de clonar a voz de qualquer pessoa a partir de uma amostra minúscula, com apenas dois segundos de duração; Senado dos EUA pede explicações à empresa após vazamento de IA de linguagem

Por Bruno Garattoni SEGUIR SEGUINDO
Atualizado em 6 set 2024, 15h39 - Publicado em 19 jun 2023, 16h00

Ilustração 3D de círculos achatados coloridos em uma composição que remete a ondas de som; em fundo creme. — (Facebook./Divulgação)

Voicebox é capaz de clonar a voz de qualquer pessoa a partir de uma amostra minúscula, com apenas dois segundos de duração; Senado dos EUA pede explicações à empresa após vazamento de IA de linguagem

“Há muitas possibilidades excitantes para os modelos generativos de fala, mas devido aos potenciais riscos de mau uso, nós não estamos disponibilizando o modelo Voicebox ou seu código”, diz a Meta no texto de apresentação da nova IA, que é capaz de clonar a fala de qualquer pessoa com alta precisão.

Segundo a Meta, o algoritmo foi treinado em mais de 50 mil horas de gravações e audiobooks (em inglês, francês, espanhol, alemão, polonês e português), e gera resultados mais fidedignos do que outros algoritmos de síntese/clonagem vocal. Veja abaixo um exemplo:

Soa bem convincente. Mas o principal avanço da nova IA é que, ao contrário de suas antecessoras, ela não requer gravações longas: basta alimentar o software com dois segundos da voz de uma pessoa. Aí, você pode usar a ferramenta para fazê-la “dizer” qualquer coisa – é só digitar as frases.

Continua após a publicidade

Nesta página da Meta, há uma série de amostras de voz com 2 segundos – e, ao lado de cada uma, seu clone sintetizado pelo algoritmo. A semelhança é espantosa. E o Voicebox tem uma função ainda mais impressionante, chamada Style transfer: em vez de digitar as frases, você simplesmente fala com o algoritmo – e ele reproduz tudo, inclusive as pausas e entonações, na voz clonada da outra pessoa.

meta-IA-voicebox — Fluxo de clonagem e síntese vocal do algoritmo Voicebox. (Meta/Reprodução)

A empresa não diz quais seriam os “potenciais riscos” do Voicebox, mas eles são fáceis de enxergar. Alguém poderia usar a IA para gerar falsos grampos telefônicos, por exemplo, em que políticos e empresários travam diálogos totalmente fictícios – mas verossímeis o bastante para convencer a imprensa, desestabilizar governos e tumultuar eleições. A ferramenta também poderia ser usada na esfera privada, para forjar conversas e chantagear pessoas com a ameaça de divulgar as “gravações”.

Continua após a publicidade

A Meta está fazendo a coisa certa ao não liberar o Voicebox. Mas ela tem um histórico recente ruim no que diz respeito a isso. Em fevereiro, a empresa disponibilizou seu algoritmo de conversação LLaMA (Large Language Model Meta AI) de forma controlada, só para pesquisadores e pessoas autorizadas.

Mas aí, pouco tempo depois, o software “vazou” na internet – o que levou dois senadores dos EUA a pedirem explicações formais a Mark Zuckerberg sobre isso.

O LLaMA foi baixado e modificado por diversas pessoas, dando origem a uma série de descendentes. E isso traz novos riscos: se qualquer pessoa pode mexer no algoritmo, pode remover seus mecanismos de proteção (como não falar sobre temas considerados perigosos, não acessar outros sistemas ou não se auto-aperfeiçoar, por exemplo).

Continua após a publicidade

Os algoritmos de síntese vocal podem ter usos ainda mais nocivos. Tanto é assim que a Adobe, criadora do primeiro deles – o VoCo, demonstrado em 2016 – nunca o lançou.