Novas versões do ChatGPT alucinam mais do que as anteriores, diz OpenAI
Modelos recentes de inteligência artificial batizados de o3 e o4-mini são mais avançados, mas também cometem mais erros e “alucinações” que versões anteriores.

No ano passado, a empresa OpenAI, criadora do ChatGPT, anunciou um novo tipo de inteligência artificial, que é mais espertinha, mas leva mais tempo para chegar a uma conclusão final sobre problemas matemáticos, científicos e de codificação.
Em vez de responder de imediato, como fazem as versões mais antigas, esses novos algoritmos podem dividir a tarefa em etapas, testar diferentes métodos ou revisar o próprio raciocínio antes de dar a resposta, tornando-a mais precisa e elaborada.
Agora, uma nova versão dessa tecnologia também consegue realizar tarefas semelhantes com imagens, gerando esboços, pôsteres, diagramas e gráficos. O programa, segundo Mark Chen, diretor de pesquisa da OpenAI, pode transformar, gerar, manipular e recortar imagens do jeito que o usuário preferir.
Os especialistas garantem que esses métodos que buscam emular nosso raciocínio ainda são bem diferentes do funcionamento do cérebro humano. Além disso, como outras tecnologias de IA, eles podem errar e até inventar informações. Essas invenções são conhecidas na área como alucinações.
Os modelos de IA o3 e o4-mini, as novas ferramentas de raciocínio da OpenAI, são avançados em muitos aspectos — mas ainda cometem muito mais alucinações do que várias versões anteriores da empresa. Esse tipo de erro é considerado um dos maiores e mais difíceis desafios da inteligência artificial, e nenhum sistema, até agora, conseguiu superá-lo completamente.
Esses modelos, porém, cometem mais erros factuais do que as versões anteriores. Apesar de apresentarem bom desempenho em tarefas como programação e matemática, eles fazem mais afirmações — e, com isso, mais erros. A OpenAI ainda não sabe exatamente por que isso acontece.
No PersonQA, teste interno da empresa que mede a precisão do conhecimento de um modelo sobre pessoas, o o3 apresentou uma taxa de alucinação de 33%, o dobro das versões anteriores. Já o o4-mini alcançou 48%. Além disso, o o3 também mostra uma tendência a inventar ações durante o processo de raciocínio para chegar às respostas.
Em entrevista ao portal TechCrunch, Neil Chowdhury, pesquisador da Transluce e ex-funcionário da OpenAI, explicou que “a hipótese é que o tipo de aprendizado por reforço usado nesses modelos pode amplificar problemas que normalmente são mitigados (embora não totalmente eliminados) pelo pós-treinamento padrão”. Ele também apontou que as alucinações podem ter aumentado como consequência de uma tentativa de gerar respostas mais criativas.