Google desenvolve Inteligência Artificial que transforma texto em música

O MusicLM gera o áudio com base em descrições como “música de meditação tocando ao lado de um rio”. Confira os primeiros resultados.

Por Maria Clara Rossini
Atualizado em 17 fev 2023, 11h37 - Publicado em 31 jan 2023, 16h48

Imagem de uma partitura musical formada por pixels. — (hh5800/Getty Images)

Nos últimos meses, os softwares de Inteligência Artificial (IA) atingiram proporções que eram inimagináveis um ano atrás. O ChatGPT, desenvolvido pela OpenAI, é um modelo de linguagem capaz de gerar textos que parecem ter sido escritos por humanos. Já o Dall-E, da mesma empresa, gera imagens inéditas a partir de descrições como “uma pintura expressionista de um cachorro usando um chapéu”.

Agora, a Google está desenvolvendo uma IA que compõe áudios inéditos a partir de texto. O MusicLM é parecido com o Dall-E – só que, em vez de escrever a descrição de uma imagem, você pode pedir sons como “uma melodia calma de violino acompanhada por um riff de guitarra distorcido”. O artigo que descreve o software foi submetido à publicação no dia 26 de janeiro, e ainda deve passar por revisão.

Ao contrário do ChatGPT e do Dall-E, o MusicLM ainda não pode ser usado pelo público. No entanto, os desenvolvedores da Google já publicaram alguns exemplos do que a IA é capaz de fazer. Clique nos hiperlinks ao longo do texto para ouvir as músicas geradas pelo software.

Da palavra ao som

Vamos começar com o básico. Digamos que você queira ouvir apenas uma música jazz ambiente enquanto prepara o jantar. Basta pedir “jazz relaxante” ao software, e ele produz uma música inédita com base naquilo que aprendeu antes. Esses modelos de IA são treinados com bases de dados imensas, com milhares de músicas do gênero jazz e outras milhares associadas à palavra relaxante. Daí, o software cria algo novo com base nas referências usadas durante o treinamento.

A frase ou descrição usada para gerar a música é chamada prompt. Ela pode ser simples, como apenas “guitarra elétrica”, ou mais complexa, como “A trilha-sonora principal de um jogo de arcade. A batida é rápida e forte, com um riff marcante de guitarra elétrica. A música é repetitiva e fácil de lembrar, mas com sons inesperados, como batidas de pratos e tambores”. O resultado desse parágrafo você escuta aqui.

Continua após a publicidade

Ao longo deste texto, deixaremos os prompts que geraram as músicas entre aspas.

Parte do processo de geração é aleatório – o que significa que a IA nunca vai gerar músicas repetidas, mesmo com um prompt repetido. Por exemplo, se pedirmos uma “música motivacional para esportes”, a MusicLM pode gerar esse sample. Se pedirmos a mesma coisa de novo, ela vai produzir esse outro.

O software também cria músicas de épocas diferentes (ouça o que tocaria em uma “balada dos anos 1950” ou uma “balada dos anos 1980”), ambientes diferentes (uma “praia no caribe” ou uma “apresentação de rua”) e até níveis de proficiência – aqui está um exemplo de um “pianista amador” em comparação com um “pianista profissional super rápido”.

A IA ainda pode gerar músicas que respeitam determinada melodia. Por exemplo: usando a melodia de bella ciao, o MusicLM gerou músicas tocadas por um “quarteto de cordas”, um “coral acapella” e “tambores tribais com uma flauta”.

Contando histórias

Os desenvolvedores não criaram músicas apenas a partir de prompts. Um dos testes envolvia fornecer imagens de pinturas e suas respectivas descrições para a máquina – e ouvir os sons que ela geraria a partir daquilo. A pintura O Grito, de Edvard Munch, deu origem a esta música; A Persistência da Memória, de Salvador Dalí, gerou esta; e Noite Estrelada, de Van Gogh, é representada por esta música.

Continua após a publicidade

Outra função bacana é chamada modo história. Os desenvolvedores pediram que a IA incluísse conceitos diferentes ao longo da mesma música. Exemplo: primeiro, a música começa com “hora de meditar” (de 0 a 15 segundos). Depois, transiciona para “hora de acordar” (de 15 a 30 segundos). Passa para “hora de correr” (de 30 a 45 segundos). E termina com “hora de dar 100%” (de 45 a 60 segundos). O resultado da música está aqui.

Não é só cortar e colar trechos diferentes numa mesma música. O software cria uma sequência consistente, que faz sentido entre si – e é isso que torna a música mais semelhante ao que seria produzido por um humano.

Como toda Inteligência Artificial, a MusicLM tem suas limitações. Você deve ter percebido nos samples anteriores que ela não dá conta de gerar as letras das músicas. Trechos de música “blues” ou “country”, por exemplo, geram vocalizações que não fazem o menor sentido em nenhum idioma.

Não sabemos quando o público poderá usar a plataforma – ou mesmo se poderá usá-la eventualmente. O modelo ainda deve passar por mudanças e aprimoramentos antes de ser lançado oficialmente. Até lá, você pode se aventurar no Riffusion, um outro modelo independente, de código aberto, com a mesma proposta do MusicLM. Bom divertimento.