Bruno Garattoni

Por Bruno Garattoni

Vencedor de 15 prêmios de Jornalismo. Editor da Super.

IAs que geram vídeo começam a ser liberadas na internet; veja como experimentar

Elas ainda são primitivas: estão no mesmo patamar que as IAs de imagem estavam em 2020. Mas têm um potencial gigantesco - para o bem e para o mal. Veja como testar, de graça, as três primeiras.

Por Bruno Garattoni SEGUIR SEGUINDO
Atualizado em 6 set 2024, 15h42 - Publicado em 3 abr 2023, 15h28

Imagem comprando o retrato de uma mulher real, a esquerda, com um retrato de uma mulher gerado por Inteligência artificial. — (Runway/Gen-1/Montagem sobre reprodução)

Elas ainda são primitivas: estão no mesmo patamar que as IAs de imagem estavam em 2020. Mas têm um potencial gigantesco – para o bem e para o mal. Veja como testar, de graça, as três primeiras.

Os algoritmos de inteligência artificial que geram imagens deram um salto impressionante nos últimos meses. Até o final do ano passado, eles conseguiam fazer ilustrações razoáveis e fotomontagens meio toscas; de alguns dias para cá, com a versão 5 da ferramenta Midjourney, se tornaram capazes de gerar fotos reais.

Tão reais que os criadores do Midjourney acharam melhor bloquear temporariamente novas contas. As fotos de Donald Trump sendo preso e do Papa com um casacão meio gangsta, que correram o mundo semana passada, foram feitas com o Midjorney V5.

Agora, as IAs estão começando a dar o próximo passo – e gerar vídeos a partir de prompts. O primeiro algoritmo capaz de fazer isso foi o Make-A-Video, criado pela Meta em 2022. Ele não foi liberado ao público. Só que agora existem outros, que foram – e você já pode testar.

Eles ainda são bem limitados, e geram resultados primitivos. Mas, se conseguirem evoluir na mesma velocidade das IAs de imagem, poderão revolucionar a internet, as artes e as comunicações. Seria possível fazer filmes inteiros, por exemplo, usando só prompts de texto. Usar a IA para criar e alimentar canais do YouTube. Ou gerar vídeos forjados, para inundar a internet com fake news ultra-realistas.

Os algoritmos atuais ainda estão longe disso. Mas são o primeiro passo nessa direção. O mais fácil de usar é o Gen-1, desenvolvido pela empresa americana Runway (criadora do Stable Diffusion, principal ferramenta de geração de imagens ao lado do Midjourney).

Continua após a publicidade

O Gen-1 tem uma limitação importante: não gera vídeos do zero. Você precisa alimentar a IA com um vídeo-base, que ela irá modificar. Pode ser qualquer um, gravado ou baixado de qualquer lugar (YouTube etc). Para facilitar as coisas, a Runway também fornece alguns clipes.

Para experimentar a nova ferramenta, basta entrar no site da Runway e criar uma conta. Você terá acesso a um painel com várias ferramentas de IA – clique em “Gen-1: Video to Video”.

interface RunwayML — – (Runway/Reprodução)

Continua após a publicidade

Agora, você precisa fornecer o vídeo base, o clipe no qual o Gen-1 irá trabalhar. Eu usei um dos exemplos prontos, que ficam na pastinha “Demo Assets”. Escolhi o segundo, que mostra uma moça na rua.

Para finalizar o processo é só clicar em Prompt, no canto direito da tela. Vai aparecer uma caixinha de texto para você digitar instruções (por enquanto, apenas em inglês) para a IA.

Digitei “vídeo de uma moça loira na rua”. Fiz isso porque queria ver como o algoritmo lidaria com a transformação de um rosto (a mulher do clipe original é asiática). Confira o vídeo fonte, e o gerado pela IA:

Continua após a publicidade

Eu disse que o software era primitivo. Ao mesmo tempo, impressiona. Porque está no mesmo patamar em que as IAs de imagem estavam em 2020 – e veja o que elas se tornaram hoje. Então é bem possível que as IAs de vídeo acabem alcançando resultados realistas.

A dúvida é em quanto tempo. A Runway já finalizou a próxima versão de seu algoritmo, o Gen-2, que é bem superior – porque consegue gerar vídeos a partir do prompt (sem precisar de um clipe-base, como o Gen-1). Veja abaixo a apresentação desse algoritmo, que ainda não foi liberado ao público.

Continua após a publicidade

Nos últimos dias, viralizou nas redes um vídeo gerado por uma ferramenta similar, a ModelScope, em que o ator Will Smith come espaguete. O resultado, veja abaixo, é muito primitivo, e até assustador – as IAs de vídeo ainda estão naquela fase em que as imagens são tão distorcidas que dão certo medo (como acontecia, dois ou três anos atrás, com as IAs de foto).

Mas a ModelScope (criada pela empresa de internet chinesa Alibaba) dá um passo à frente em relação ao Gen-1: ela não requer um vídeo de base, ou seja, você pode simplesmente digitar uma descrição do que deseja gerar.

Continua após a publicidade

O número de acessos a ela explodiu – por isso, você poderá ver uma mensagem dizendo que o ModelScope está sobrecarregado. É só tentar um pouquinho mais tarde, geralmente funciona.

A terceira IA de vídeo aberta ao público é a Deforum. Esse algoritmo trabalha com animação (não busca o foto-realismo), e já consegue resultados mais próximos do razoável. Ele tem uma demo online, que você pode acessar no site GitHub.

Basta digitar (em inglês) no campo animation_prompts o que você quer ver. A geração do clipe, de poucossegundos, pode demorar alguns minutos. Mas o resultado é interessante (veja exemplo abaixo).

A Deforum também tem uma versão mais rápida – ela roda na RunDiffusion, uma plataforma paga de computação em nuvem (a partir de US$ 0,50 por hora de uso), e tem recursos a mais – veja um guia neste vídeo.