Bruno Garattoni SEGUIR SEGUINDO

Por Bruno Garattoni

Siga

Vencedor de 15 prêmios de Jornalismo. Editor da Super.

Continua após publicidade

ChatGPT está ficando mais “burro”, aponta estudo

Testes da Universidade Stanford revelam grande aumento de erros do robô em perguntas de matemática e na geração de softwares; OpenAI admite problemas, mas não explica os motivos; veja três hipóteses para a deterioração do algoritmo.

Por Bruno Garattoni SEGUIR SEGUINDO
Atualizado em 24 jul 2023, 17h40 - Publicado em 24 jul 2023, 17h20

(Getty Images/Reprodução)

Continua após publicidade

Testes da Universidade Stanford revelam grande aumento de erros do robô em perguntas de matemática e na geração de softwares; OpenAI admite problemas, mas não explica os motivos; veja três hipóteses para a deterioração do algoritmo.

17077 é um número primo? É, sim: porque, como os demais números primos, só é divisível por 1 ou por ele mesmo. Em março deste ano, o ChatGPT respondia essa pergunta corretamente 97,6% das vezes. Mas, em junho, alguma coisa aconteceu – e o bot passou a acertar em apenas 2,4% das vezes. Errava quase sempre.

Seria um bug isolado? Aparentemente não. Mais um exemplo: “dado um número inteiro n > 0, encontre a soma de todos os números inteiros na gama [1, n] que sejam divisíveis por 3, 5 ou 7”. Em março, o robô dava a resposta certa para esse problema em 52% dos casos. Em junho, apenas 10%.

Essas são algumas das descobertas de um estudo da Universidade Stanford, cujos pesquisadores submeteram o ChatGPT a uma série de testes. Eles usaram duas versões do robô: um baseado no algoritmo GPT-4, que é mais avançado (e só está disponível para quem assina o ChatGPT Plus, a versão paga do serviço), e outro que roda o GPT-3.5 – a versão “original” e grátis do ChatGPT, baseada num algoritmo que foi criado em 2020 e vem sendo refinado.

Continua após a publicidade

Com o GPT-3.5, aconteceu algo mais estranho ainda. Em março deste ano, ele ia muito mal na pergunta sobre 17077 ser um número primo: só dava a resposta correta em 7,4% dos casos. Em junho, melhorou muito, e passou a acertar em 86,8% das vezes. Bacana. O porém é que, no segundo teste, o algoritmo também se deteriorou. Em março, ele dava a resposta correta em 22% das vezes – mas o índice de acertos caiu para pífios 2% em junho.

Outra mudança intrigante apontada no estudo é que, a partir de junho, o ChatGPT parou de fornecer sua “linha de raciocínio”, ou seja, dizer quais etapas seguiu para chegar aos resultados dos testes de matemática – coisa que ele fazia, se o usuário pedisse, em março.

chatgpt-ia — Comparação de resultados dos algoritmos GPT-4 e GPT-3.5, em vários tipos de pergunta, nos meses de março e junho. (Universidade Stanford/Reprodução)

O estudo também revelou grande piora na qualidade do código de software escrito pelo ChatGPT. Em março, num teste realizado pelos cientistas, o GPT-4 produziu código executável (ou seja, que poderia ser utilizado sem a necessidade de correções) em 52% das tentativas, e o GPT-3.5 conseguiu fazer isso em 22% dos casos. Em junho, os índices de sucesso caíram para 10% e 2%, respectivamente.

Por que essas coisas estão acontecendo? Ninguém sabe ao certo, mas há três hipóteses.

Os mistérios do ChatGPT

A primeira é que os problemas sejam culpa da OpenAI, a criadora do ChatGPT. A empresa não revela quais alterações faz em seus algoritmos, mas é provável que incluam a chamada “sintonia fina”: um processo em que a IA é retreinada, analisando conjuntos específicos de dados, para tentar melhorar sua precisão. Isso pode ter efeitos colaterais, como aumentar o índice de erros em outras respostas.

Continua após a publicidade

A segunda possibilidade é algum tipo de drift, ou desvio. A cada vez que você entra no ChatGPT e digita alguma coisa, é como se o algoritmo estivesse partindo do zero: ele não se lembra das perguntas que você fez nas outras vezes em que usou o serviço. Mas a OpenAI está começando a mudar isso. Na semana passada ela anunciou uma nova função, chamada Custom instructions, com a qual é possível fornecer alguns dados persistentes, dos quais o ChatGPT se lembrará sempre que você o acessar.

“Um professor que está fazendo um plano de lições não precisa mais repetir que dá aulas de ciência para a 3a série, por exemplo. Um desenvolvedor que prefere código numa linguagem que não seja Python – ele pode dizer isso uma vez, e pronto”, explica a OpenAI, que também cita um exemplo mais banal. Você pode informar que a sua família tem 6 pessoas, e o ChatGPT se lembrará disso sempre que você pedir a ele que faça uma lista de compras de supermercado.

A função Custom instructions só foi liberada ao público recentemente. Mas é possível que a OpenAI já estivesse usando, internamente, alguma forma de persistência de dados nos algoritmos GPT. O problema é que essa persistência pode fazer com que o algoritmo acabe se auto-modificando, para melhor ou pior – o que levaria, no segundo caso, à queda na qualidade das respostas.

Continua após a publicidade

A terceira hipótese para explicar a deterioração do ChatGPT tem a ver com a popularidade das IAs. Em maio, cientistas das universidades de Oxford e Cambridge publicaram um estudo mostrando que os grandes modelos de linguagem (LLMs), tipo de algoritmo que engloba a família GPT e outras inteligências artificiais, como o Google Bard, estão sujeitos ao chamado “colapso do modelo”.

É o seguinte. Conforme as IAs passam a ser cada vez mais usadas para gerar textos e respostas, isso acaba indo parar na internet: há cada vez mais curiosos, e até empresas jornalísticas, tentando usar IAs para produzir sites. A tendência é que, nos próximos anos, boa parte do conteúdo online seja gerado por inteligência artificial.

O problema, como os cientistas ingleses demonstraram, acontece quando uma IA se alimenta de textos ou dados que foram gerados por outra IA.

Continua após a publicidade

Isso deverá acontecer cada vez mais (pois as IAs são treinadas com conteúdo da internet). Mas causa uma degeneração progressiva e irreversível, em que o algoritmo fornece dados cada vez mais distorcidos e errados, e chega a um estado, o tal colapso, no qual se torna incapaz de melhorar.

A degradação do ChatGPT pode estar relacionada a um desses três fatores, ou a uma combinação deles. A OpenAI admitiu que o bot está pior em algumas tarefas. E disse, sem muitos detalhes, que está trabalhando para corrigir isso.