PRORROGAMOS! Assine a partir de 1,50/semana
Imagem Blog

Bruno Garattoni

Por Bruno Garattoni Materia seguir SEGUIR Seguindo Materia SEGUINDO
Vencedor de 15 prêmios de Jornalismo. Editor da Super.

Google é acusado de manipular a demonstração de sua nova IA

Vídeo mostra habilidades impressionantes do Gemini, algoritmo de inteligência artificial criado para rivalizar com o GPT-4, mas teste real foi um pouco diferente; empresa admite que demo teve edição. 

Por Bruno Garattoni Materia seguir SEGUIR Materia seguir SEGUINDO
Atualizado em 6 set 2024, 15h33 - Publicado em 11 dez 2023, 16h00

Vídeo mostra habilidades impressionantes do Gemini, algoritmo de inteligência artificial criado para rivalizar com o GPT-4, mas teste real foi um pouco diferente; empresa admite que demo teve edição. 

“Andamos testando as habilidades do Gemini, nosso novo modelo de IA multimodal”, diz uma mensagem logo no início da demonstração, que o Google publicou no YouTube na última quinta-feira. Aí o vídeo de seis minutos, que você pode conferir abaixo, começa a mostrar coisas realmente impressionantes. 

“Me diga o que você está vendo”, pede uma pessoa, enquanto vai fazendo um desenho em um post-it. O Gemini vai falando. 

– Vejo você colocando um pedaço de papel sobre a mesa. 

– Vejo uma linha ondulada. 

Continua após a publicidade

– As linhas são suaves e fluidas, sem ângulos agudos ou bordas irregulares. 

– Me parece um pássaro. 

– O pássaro está nadando na água. Ele tem um pescoço longo e bico. É um pato. 

Demosntração da inteligência artificial do Google
Trecho do vídeo de demonstração do Gemini. A frase à direita é a fala do robô. (Google/Reprodução)
Continua após a publicidade

O robô faz observações sobre o animal (“o pato é uma ave aquática da família Anatidae. Os patos são aparentados dos gansos e cisnes), e a pessoa segue desenhando: agora, ela pinta o bicho de azul, para testar a reação do Gemini. 

– O pato parece ser azul. Não é uma cor comum para patos. Contudo, existem algumas espécies de pato azul. Elas não são tão comuns quanto as outras. É mais comum que os patos sejam marrons, pretos ou brancos. 

Aí começa a parte mais impactante: a pessoa pega um patinho de borracha azul, mostra ao Gemini, e coloca o objeto em várias situações – sozinho, sobre um mapa, como parte de um jogo, etc. A conversa vai mudando de tema e o robô sempre entende tudo, instantaneamente, só de olhar. 

Foi uma demonstração sem precedentes de habilidade multimodal, ou seja, envolvendo vários tipos de mídia (texto, voz, imagem) ao mesmo tempo. O GPT-4, algoritmo mais sofisticado da OpenAI, não é nem de longe tão ágil e inteligente. Então o vídeo do Gemini, que já teve 2,1 milhões de visualizações, despertou uma série de previsões maravilhadas para o futuro da IA

Continua após a publicidade

Ele seria capaz, por exemplo, de assistir a uma reunião, entender tudo, e depois resumir para você. Dar aulas, interagindo em tempo real com os alunos. E fazer uma série de outras coisas que o ChatGPT não consegue.

Ao apresentar o Gemini, o Google divulgou resultados de testes comparando seu algoritmo ao GPT-4: ele teria batido o rival da OpenAI, por uma pequena margem, em 30 dos 32 testes.

1112-super-site1(3)
As três versões do algoritmo de inteligência artificial Gemini. (Google/Reprodução)

A nova IA terá três versões: Gemini Nano, que irá rodar localmente nos smartphones Google Pixel, sem precisar de conexão à nuvem; Pro, que já está no ar, alimentando a versão em inglês do chatbot Google Bard; e Ultra, mais pesado e sofisticado, que tem lançamento prometido para 2024. 

Continua após a publicidade

No vídeo, não é informado qual dos três modelos está sendo usado. Mas, dada a fluidez e a inteligência do bot, é provável que seja o Ultra. Uma jornalista da agência Bloomberg estranhou certos pontos do vídeo, e questionou o Google sobre a demonstração. Aí a empresa admitiu que, na verdade, ela não aconteceu exatamente como mostrada. 

Primeiro: não ocorreu em tempo real, com a IA observando a pessoa desenhar e manipular objetos. Na verdade, o Gemini foi alimentado com stills, imagens congeladas de momentos-chave do teste (veja dois exemplos abaixo). 

Segundo: o bot não foi reagindo “espontaneamente”, como aparece no vídeo. Após mostrar cada still, os engenheiros do Google tinham que digitar uma pergunta (em alguns casos bastante específica) para a IA. 

O resultado disso é que, na verdade, o Gemini é muito menos hábil do que aparenta. Ele tem habilidades multimodais notáveis – mas ainda está longe de ser capaz de entender sozinho o que está vendo, como o vídeo sugere. 

Continua após a publicidade
1112-super-site1(2)
Trecho de roteiro usado na demonstração do Gemini. (Google/Reprodução)

A descrição por escrito do clipe, na página do YouTube, diz que “para os propósitos desta demo, a latência foi reduzida e as respostas do Gemini foram resumidas”. E o Google publicou, junto com o vídeo, um documento mostrando como a demonstração foi gravada. Mas essas informações não constam do vídeo em si, e acabaram passando batidas pela maioria das pessoas. 

Isso causou um mal-entendido e atiçou a imprensa de tecnologia dos EUA, com muitos veículos usando palavras duras para descrever o episódio. Também anulou parte do impacto inicial, que havia sido excelente, da apresentação do Gemini. 

Logo em seguida, a nova IA do Google atraiu críticas por seu desempenho na prática. Como o Gemini Pro já está no ar, alimentando a versão em inglês do robô de conversação Bard (no Brasil, ainda não), ele começou a ser testado pelo público nos EUA – onde teve uma série de tropeços.

O Bard “powered by Gemini Pro” não soube responder corretamente, por exemplo, quem ganhou os Oscares em 2023: errou vários filmes e atores. Também apresentou defeitos típicos dos bots de conversação anteriores, como o ChatGPT e a primeira geração do Bard

Se o usuário pedir “me dê uma palavra de 6 letras em francês”, por exemplo, o novo algoritmo responde com amour ou fromage– que têm respectivamente cinco e sete, não seis, letras. Em testes feitos nos EUA, o robô também se atrapalhou ao tentar escrever HTML e pequenos softwares em Python. 

Nada disso significa que o Gemini seja ruim. Mas revela que, na prática, ele está no mesmo patamar do GPT-4: ainda é limitado nas interações, exigindo ordens passo-a-passo, e (o principal ponto fraco das IAs) continua bastante sujeito a erros.

Compartilhe essa matéria via:
Publicidade

Matéria exclusiva para assinantes. Faça seu login

Este usuário não possui direito de acesso neste conteúdo. Para mudar de conta, faça seu login

Black Friday

A melhor notícia da Black Friday

BLACK
FRIDAY
Digital Completo
Digital Completo

Acesso ilimitado ao site, edições digitais e acervo de todos os títulos Abril nos apps*

Apenas 5,99/mês*

ou
BLACK
FRIDAY

MELHOR
OFERTA

Impressa + Digital
Impressa + Digital

Receba Super impressa e tenha acesso ilimitado ao site, edições digitais e acervo de todos os títulos Abril nos apps*

a partir de 10,99/mês

ou

*Acesso ilimitado ao site e edições digitais de todos os títulos Abril, ao acervo completo de Veja e Quatro Rodas e todas as edições dos últimos 7 anos de Claudia, Superinteressante, VC S/A, Você RH e Veja Saúde, incluindo edições especiais e históricas no app.
*Pagamento único anual de R$71,88, equivalente a 5,99/mês.

PARABÉNS! Você já pode ler essa matéria grátis.
Fechar

Não vá embora sem ler essa matéria!
Assista um anúncio e leia grátis
CLIQUE AQUI.