Assine SUPER por R$2,00/semana
Bruno Garattoni Por Bruno Garattoni Vencedor de 15 prêmios de Jornalismo. Editor da Super.
Continua após publicidade

Google é acusado de manipular a demonstração de sua nova IA

Vídeo mostra habilidades impressionantes do Gemini, algoritmo de inteligência artificial criado para rivalizar com o GPT-4, mas teste real foi um pouco diferente; empresa admite que demo teve edição. 

Por Bruno Garattoni Materia seguir SEGUIR Materia seguir SEGUINDO
11 dez 2023, 16h00
  • Seguir materia Seguindo materia
  • Vídeo mostra habilidades impressionantes do Gemini, algoritmo de inteligência artificial criado para rivalizar com o GPT-4, mas teste real foi um pouco diferente; empresa admite que demo teve edição. 

    Publicidade

    “Andamos testando as habilidades do Gemini, nosso novo modelo de IA multimodal”, diz uma mensagem logo no início da demonstração, que o Google publicou no YouTube na última quinta-feira. Aí o vídeo de seis minutos, que você pode conferir abaixo, começa a mostrar coisas realmente impressionantes. 

    Publicidade

    “Me diga o que você está vendo”, pede uma pessoa, enquanto vai fazendo um desenho em um post-it. O Gemini vai falando. 

    Publicidade

    – Vejo você colocando um pedaço de papel sobre a mesa. 

    – Vejo uma linha ondulada. 

    Publicidade
    Continua após a publicidade

    – As linhas são suaves e fluidas, sem ângulos agudos ou bordas irregulares. 

    – Me parece um pássaro. 

    Publicidade

    – O pássaro está nadando na água. Ele tem um pescoço longo e bico. É um pato. 

    Demosntração da inteligência artificial do Google
    Trecho do vídeo de demonstração do Gemini. A frase à direita é a fala do robô. (Google/Reprodução)

    O robô faz observações sobre o animal (“o pato é uma ave aquática da família Anatidae. Os patos são aparentados dos gansos e cisnes), e a pessoa segue desenhando: agora, ela pinta o bicho de azul, para testar a reação do Gemini. 

    Publicidade

    – O pato parece ser azul. Não é uma cor comum para patos. Contudo, existem algumas espécies de pato azul. Elas não são tão comuns quanto as outras. É mais comum que os patos sejam marrons, pretos ou brancos. 

    Continua após a publicidade

    Aí começa a parte mais impactante: a pessoa pega um patinho de borracha azul, mostra ao Gemini, e coloca o objeto em várias situações – sozinho, sobre um mapa, como parte de um jogo, etc. A conversa vai mudando de tema e o robô sempre entende tudo, instantaneamente, só de olhar. 

    Foi uma demonstração sem precedentes de habilidade multimodal, ou seja, envolvendo vários tipos de mídia (texto, voz, imagem) ao mesmo tempo. O GPT-4, algoritmo mais sofisticado da OpenAI, não é nem de longe tão ágil e inteligente. Então o vídeo do Gemini, que já teve 2,1 milhões de visualizações, despertou uma série de previsões maravilhadas para o futuro da IA

    Ele seria capaz, por exemplo, de assistir a uma reunião, entender tudo, e depois resumir para você. Dar aulas, interagindo em tempo real com os alunos. E fazer uma série de outras coisas que o ChatGPT não consegue.

    Ao apresentar o Gemini, o Google divulgou resultados de testes comparando seu algoritmo ao GPT-4: ele teria batido o rival da OpenAI, por uma pequena margem, em 30 dos 32 testes.

    gemini-IA-google
    As três versões do algoritmo de inteligência artificial Gemini. (Google/Reprodução)

    A nova IA terá três versões: Gemini Nano, que irá rodar localmente nos smartphones Google Pixel, sem precisar de conexão à nuvem; Pro, que já está no ar, alimentando a versão em inglês do chatbot Google Bard; e Ultra, mais pesado e sofisticado, que tem lançamento prometido para 2024. 

    Continua após a publicidade

    No vídeo, não é informado qual dos três modelos está sendo usado. Mas, dada a fluidez e a inteligência do bot, é provável que seja o Ultra. Uma jornalista da agência Bloomberg estranhou certos pontos do vídeo, e questionou o Google sobre a demonstração. Aí a empresa admitiu que, na verdade, ela não aconteceu exatamente como mostrada. 

    Primeiro: não ocorreu em tempo real, com a IA observando a pessoa desenhar e manipular objetos. Na verdade, o Gemini foi alimentado com stills, imagens congeladas de momentos-chave do teste (veja dois exemplos abaixo). 

    Segundo: o bot não foi reagindo “espontaneamente”, como aparece no vídeo. Após mostrar cada still, os engenheiros do Google tinham que digitar uma pergunta (em alguns casos bastante específica) para a IA. 

    O resultado disso é que, na verdade, o Gemini é muito menos hábil do que aparenta. Ele tem habilidades multimodais notáveis – mas ainda está longe de ser capaz de entender sozinho o que está vendo, como o vídeo sugere. 

    gemini-IA-google
    Trecho de roteiro usado na demonstração do Gemini. (Google/Reprodução)

    A descrição por escrito do clipe, na página do YouTube, diz que “para os propósitos desta demo, a latência foi reduzida e as respostas do Gemini foram resumidas”. E o Google publicou, junto com o vídeo, um documento mostrando como a demonstração foi gravada. Mas essas informações não constam do vídeo em si, e acabaram passando batidas pela maioria das pessoas. 

    Continua após a publicidade

    Isso causou um mal-entendido e atiçou a imprensa de tecnologia dos EUA, com muitos veículos usando palavras duras para descrever o episódio. Também anulou parte do impacto inicial, que havia sido excelente, da apresentação do Gemini. 

    Logo em seguida, a nova IA do Google atraiu críticas por seu desempenho na prática. Como o Gemini Pro já está no ar, alimentando a versão em inglês do robô de conversação Bard (no Brasil, ainda não), ele começou a ser testado pelo público nos EUA – onde teve uma série de tropeços.

    O Bard “powered by Gemini Pro” não soube responder corretamente, por exemplo, quem ganhou os Oscares em 2023: errou vários filmes e atores. Também apresentou defeitos típicos dos bots de conversação anteriores, como o ChatGPT e a primeira geração do Bard

    Se o usuário pedir “me dê uma palavra de 6 letras em francês”, por exemplo, o novo algoritmo responde com amour ou fromage– que têm respectivamente cinco e sete, não seis, letras. Em testes feitos nos EUA, o robô também se atrapalhou ao tentar escrever HTML e pequenos softwares em Python. 

    Nada disso significa que o Gemini seja ruim. Mas revela que, na prática, ele está no mesmo patamar do GPT-4: ainda é limitado nas interações, exigindo ordens passo-a-passo, e (o principal ponto fraco das IAs) continua bastante sujeito a erros.

    Continua após a publicidade
    Compartilhe essa matéria via:
    Publicidade
    Publicidade

    Matéria exclusiva para assinantes. Faça seu login

    Este usuário não possui direito de acesso neste conteúdo. Para mudar de conta, faça seu login

    Domine o fato. Confie na fonte.

    10 grandes marcas em uma única assinatura digital

    MELHOR
    OFERTA

    Digital Completo
    Digital Completo

    Acesso ilimitado ao site, edições digitais e acervo de todos os títulos Abril nos apps*

    a partir de R$ 2,00/semana*

    ou
    Impressa + Digital
    Impressa + Digital

    Receba Super impressa e tenha acesso ilimitado ao site, edições digitais e acervo de todos os títulos Abril nos apps*

    a partir de R$ 12,90/mês

    *Acesso ilimitado ao site e edições digitais de todos os títulos Abril, ao acervo completo de Veja e Quatro Rodas e todas as edições dos últimos 7 anos de Claudia, Superinteressante, VC S/A, Você RH e Veja Saúde, incluindo edições especiais e históricas no app.
    *Pagamento único anual de R$96, equivalente a R$2 por semana.

    PARABÉNS! Você já pode ler essa matéria grátis.
    Fechar

    Não vá embora sem ler essa matéria!
    Assista um anúncio e leia grátis
    CLIQUE AQUI.