Assine SUPER por R$2,00/semana
Imagem Blog

Bruno Garattoni Materia seguir SEGUIR Seguindo Materia SEGUINDO

Por Bruno Garattoni
Vencedor de 15 prêmios de Jornalismo. Editor da Super.
Continua após publicidade

Google é acusado de manipular a demonstração de sua nova IA

Vídeo mostra habilidades impressionantes do Gemini, algoritmo de inteligência artificial criado para rivalizar com o GPT-4, mas teste real foi um pouco diferente; empresa admite que demo teve edição. 

Por Bruno Garattoni Materia seguir SEGUIR Materia seguir SEGUINDO
11 dez 2023, 16h00

Vídeo mostra habilidades impressionantes do Gemini, algoritmo de inteligência artificial criado para rivalizar com o GPT-4, mas teste real foi um pouco diferente; empresa admite que demo teve edição. 

“Andamos testando as habilidades do Gemini, nosso novo modelo de IA multimodal”, diz uma mensagem logo no início da demonstração, que o Google publicou no YouTube na última quinta-feira. Aí o vídeo de seis minutos, que você pode conferir abaixo, começa a mostrar coisas realmente impressionantes. 

“Me diga o que você está vendo”, pede uma pessoa, enquanto vai fazendo um desenho em um post-it. O Gemini vai falando. 

– Vejo você colocando um pedaço de papel sobre a mesa. 

– Vejo uma linha ondulada. 

Continua após a publicidade

– As linhas são suaves e fluidas, sem ângulos agudos ou bordas irregulares. 

– Me parece um pássaro. 

– O pássaro está nadando na água. Ele tem um pescoço longo e bico. É um pato. 

Demosntração da inteligência artificial do Google
Trecho do vídeo de demonstração do Gemini. A frase à direita é a fala do robô. (Google/Reprodução)

O robô faz observações sobre o animal (“o pato é uma ave aquática da família Anatidae. Os patos são aparentados dos gansos e cisnes), e a pessoa segue desenhando: agora, ela pinta o bicho de azul, para testar a reação do Gemini. 

– O pato parece ser azul. Não é uma cor comum para patos. Contudo, existem algumas espécies de pato azul. Elas não são tão comuns quanto as outras. É mais comum que os patos sejam marrons, pretos ou brancos. 

Continua após a publicidade

Aí começa a parte mais impactante: a pessoa pega um patinho de borracha azul, mostra ao Gemini, e coloca o objeto em várias situações – sozinho, sobre um mapa, como parte de um jogo, etc. A conversa vai mudando de tema e o robô sempre entende tudo, instantaneamente, só de olhar. 

Foi uma demonstração sem precedentes de habilidade multimodal, ou seja, envolvendo vários tipos de mídia (texto, voz, imagem) ao mesmo tempo. O GPT-4, algoritmo mais sofisticado da OpenAI, não é nem de longe tão ágil e inteligente. Então o vídeo do Gemini, que já teve 2,1 milhões de visualizações, despertou uma série de previsões maravilhadas para o futuro da IA

Ele seria capaz, por exemplo, de assistir a uma reunião, entender tudo, e depois resumir para você. Dar aulas, interagindo em tempo real com os alunos. E fazer uma série de outras coisas que o ChatGPT não consegue.

Ao apresentar o Gemini, o Google divulgou resultados de testes comparando seu algoritmo ao GPT-4: ele teria batido o rival da OpenAI, por uma pequena margem, em 30 dos 32 testes.

gemini-IA-google
As três versões do algoritmo de inteligência artificial Gemini. (Google/Reprodução)

A nova IA terá três versões: Gemini Nano, que irá rodar localmente nos smartphones Google Pixel, sem precisar de conexão à nuvem; Pro, que já está no ar, alimentando a versão em inglês do chatbot Google Bard; e Ultra, mais pesado e sofisticado, que tem lançamento prometido para 2024. 

Continua após a publicidade

No vídeo, não é informado qual dos três modelos está sendo usado. Mas, dada a fluidez e a inteligência do bot, é provável que seja o Ultra. Uma jornalista da agência Bloomberg estranhou certos pontos do vídeo, e questionou o Google sobre a demonstração. Aí a empresa admitiu que, na verdade, ela não aconteceu exatamente como mostrada. 

Primeiro: não ocorreu em tempo real, com a IA observando a pessoa desenhar e manipular objetos. Na verdade, o Gemini foi alimentado com stills, imagens congeladas de momentos-chave do teste (veja dois exemplos abaixo). 

Segundo: o bot não foi reagindo “espontaneamente”, como aparece no vídeo. Após mostrar cada still, os engenheiros do Google tinham que digitar uma pergunta (em alguns casos bastante específica) para a IA. 

O resultado disso é que, na verdade, o Gemini é muito menos hábil do que aparenta. Ele tem habilidades multimodais notáveis – mas ainda está longe de ser capaz de entender sozinho o que está vendo, como o vídeo sugere. 

gemini-IA-google
Trecho de roteiro usado na demonstração do Gemini. (Google/Reprodução)

A descrição por escrito do clipe, na página do YouTube, diz que “para os propósitos desta demo, a latência foi reduzida e as respostas do Gemini foram resumidas”. E o Google publicou, junto com o vídeo, um documento mostrando como a demonstração foi gravada. Mas essas informações não constam do vídeo em si, e acabaram passando batidas pela maioria das pessoas. 

Continua após a publicidade

Isso causou um mal-entendido e atiçou a imprensa de tecnologia dos EUA, com muitos veículos usando palavras duras para descrever o episódio. Também anulou parte do impacto inicial, que havia sido excelente, da apresentação do Gemini. 

Logo em seguida, a nova IA do Google atraiu críticas por seu desempenho na prática. Como o Gemini Pro já está no ar, alimentando a versão em inglês do robô de conversação Bard (no Brasil, ainda não), ele começou a ser testado pelo público nos EUA – onde teve uma série de tropeços.

O Bard “powered by Gemini Pro” não soube responder corretamente, por exemplo, quem ganhou os Oscares em 2023: errou vários filmes e atores. Também apresentou defeitos típicos dos bots de conversação anteriores, como o ChatGPT e a primeira geração do Bard

Se o usuário pedir “me dê uma palavra de 6 letras em francês”, por exemplo, o novo algoritmo responde com amour ou fromage– que têm respectivamente cinco e sete, não seis, letras. Em testes feitos nos EUA, o robô também se atrapalhou ao tentar escrever HTML e pequenos softwares em Python. 

Nada disso significa que o Gemini seja ruim. Mas revela que, na prática, ele está no mesmo patamar do GPT-4: ainda é limitado nas interações, exigindo ordens passo-a-passo, e (o principal ponto fraco das IAs) continua bastante sujeito a erros.

Continua após a publicidade
Compartilhe essa matéria via:
Publicidade

Matéria exclusiva para assinantes. Faça seu login

Este usuário não possui direito de acesso neste conteúdo. Para mudar de conta, faça seu login

Domine o fato. Confie na fonte.

10 grandes marcas em uma única assinatura digital

MELHOR
OFERTA

Digital Completo
Digital Completo

Acesso ilimitado ao site, edições digitais e acervo de todos os títulos Abril nos apps*

a partir de R$ 2,00/semana*

ou
Impressa + Digital
Impressa + Digital

Receba Super impressa e tenha acesso ilimitado ao site, edições digitais e acervo de todos os títulos Abril nos apps*

a partir de R$ 12,90/mês

*Acesso ilimitado ao site e edições digitais de todos os títulos Abril, ao acervo completo de Veja e Quatro Rodas e todas as edições dos últimos 7 anos de Claudia, Superinteressante, VC S/A, Você RH e Veja Saúde, incluindo edições especiais e históricas no app.
*Pagamento único anual de R$96, equivalente a R$2 por semana.

PARABÉNS! Você já pode ler essa matéria grátis.
Fechar

Não vá embora sem ler essa matéria!
Assista um anúncio e leia grátis
CLIQUE AQUI.