No Wordle, você se sai melhor que o ChatGPT
Lembra dele? O joguinho de descobrir palavras secretas poderia ser moleza para uma inteligência artificial treinada com milhares de textos – mas não é assim que funciona.
Lançado no final de novembro de 2022, o ChatGPT se tornou um fenômeno da internet. O número de usuários da ferramenta explodiu, e com menos de dois meses de existência já tinha passado os 100 milhões de usuários.
Desenvolvida pela empresa OpenAI, a Inteligência Artificial (IA) atraiu a atenção do público – que fez testes engraçados, trabalhos da faculdade e até tentou conscientizá-la de seus atos. O ChatGPT é treinado com inúmeros tipos de texto extraídos da web, então é capaz de identificar palavras que costumam andar lado a lado em certos estilos e informações – é assim que ela “fala” com o usuário. De tanto ler os textos da seção “Carta ao Leitor” da Super, ele aprendeu a fazer algo no mesmo estilo.
O ChatGPT te dá receitas de bolo, responde sua tarefa de bioquímica, escreve o roteiro de uma cena e até linhas de código para um programa. Existem muitas expertises nessa lista – mas jogar Wordle não é uma delas.
Lembra dele? O Wordle é um joguinho de navegador que fez sucesso em 2022. O objetivo é descobrir uma palavra misteriosa de cinco letras em seis tentativas, e a única forma de avançar é chutando outras palavras. Conforme você palpita, descobre quais letras estão no lugar certo, quais fazem parte da palavra (mas estão no lugar errado), e quais não vão te ajudar.
A proposta simples é um bom passatempo – o Wordle é em inglês, mas existe um equivalente em português, o Termo. Um jogo tão simples que você talvez esperaria que uma inteligência artificial treinada com milhões de textos tiraria de letra. Não é o caso.
Michael G. Madden, professor de ciência da computação na Universidade de Galway, na Irlanda, decidiu colocar o ChatGPT à prova. Usando a versão mais atualizada da IA, o GPT-4, ele tentou fazer o bot adivinhar qual seria a resposta para o enigma. O primeiro padrão que testou era “#E#L#”, Madden sabia que o “E” e o “L” estavam na posição correta, mas as três letras representadas por “#” eram desconhecidas.
A resposta, no caso, era “mealy” (algo como “farinhento” em português). O ChatGPT não só errou, como cinco dos seis palpites que deu nem se encaixavam no padrão: “beryl”, “feral”, “heral”, “merle”, “revel” e “pearl”.
Segundo Madden, o bot acertou em alguns casos; mas, no geral, era bem inconsistente. As sugestões às vezes não tinham as letras que foram pedidas, ou simplesmente não constavam no dicionário.
Decepcionante, mas esperado
Apesar de impressionarem, as inteligências artificiais ainda são programas de computador e, como tal, funcionam com zeros e uns. As palavras têm que ser transformadas em números para que a rede neural do ChatGPT possa trabalhar com elas.
Assim que o GPT-4 é alimentado com os textos iniciais, ele converte as palavras, sílabas, sinais de pontuação e espaços em conjuntos de números, chamados “tokens”. Depois, ele analisa as palavras e com qual frequência elas aparecem juntas, atribuindo um determinado peso (ou parâmetro) a essa relação. Para entender mais profundamente como isso funciona, confira a matéria de capa da Super. Esse números não foram divulgados para o GPT-4, mas seu antecessor, o GPT-3, tinha 499 bilhões de tokens e 175 bilhões de parâmetros.
Quando você digita a sua pergunta, o comando é traduzido em tokens e comparado com os parâmetros conhecidos. O ChatGPT deduz o que você quer é dá uma resposta com palavras estatisticamente comuns no tema – mas ele não compreende a natureza do que você quer. Ele entende as palavras como número e blocos, não como texto; portanto, não raciocina de verdade sobre as letras.
Se o ChatGPT fracassou, pelo menos ele foi bem em delegar a tarefa. Madden pediu para que a IA escrevesse o código de um programa que fosse capaz de fazer o que ela não fez: descobrir as letras faltantes do Wordle.
O programa inicial que o ChatGPT-4 produziu tinha um erro no código – que foi corrigido por ele mesmo quando apontado. Executando o programa, Madden recebeu 48 palavras válidas para o padrão “#E#L#”, incluindo “tells”, “cells” e “hello” – enquanto o GPT-4 só fez um único palpite plausível.
Pode parecer surpreendente que um modelo de linguagem como o ChatGPT, capaz de responder perguntas sobre física quântica e redigir dissertações inteiras, tenha dificuldade para resolver um simples quebra-cabeças de palavras. Porém, isso acontece devido à maneira como esses tipos de programas funcionam. Os textos são entendidos como números, descartando a estrutura e posição das letras nas palavras. Não é possível ser bom em tudo, não é?