Super Promoção: 3 meses por 1,99/mês

Matemáticos ainda são melhores que IA para resolver problemas avançados

Diante de um teste com 150 questões de matemática que especialistas levariam dias para concluir, as IAs mais avançadas não resolveram mais que 2%.

Por Bela Lobato
4 dez 2024, 18h00

Na internet pipocam dicas de ferramentas de inteligências artificiais (IA) que podem ajudar a resolver problemas matemáticos. Enquanto elas são úteis no cotidiano e vão bem em testes de ensino médio, um estudo comprovou que as IAs não estão nem perto de revolucionar a compreensão da matemática avançada.

A pesquisa foi feita por um instituto de pesquisa em tecnologia, Epoch AI, que reuniu 60 matemáticos especialistas para criarem o teste mais difícil que conseguissem. O teste foi aplicado a seis diferentes IAs, escolhidas por terem os melhores resultados em matemática: o1-preview, o1-mini e GPT-4o, da OpenAI; além de Claude 3.5 Sonnet, Grok 2 Beta e Gemini 1.5 Pro 002. 

O novo teste, chamado FrontierMath, teve dois diferenciais em relação aos que já existem no mercado. Primeiro, ele focou em questões “excepcionalmente desafiadoras, que exigem raciocínio e criatividade profundos, incluindo matemática em nível de pesquisa”. Isso significa que as questões requerem horas e até dias de esforço e pesquisa, mesmo para pesquisadores especialistas no ramo.

O segundo diferencial foi o uso de questões inéditas, para evitar que as IAs já tivessem sido treinadas com alguma informação disponível na web. Para proteger-se contra a contaminação de dados, os autores do teste discutiram seus problemas somente em servidores criptografados e evitaram usar editores de texto online, onde uma IA poderia vislumbrar seus planos.

As 150 questões cobriam 70% dos assuntos da matemática moderna, com diferentes formatos: algumas no estilo de perguntas de competição, e outras de pesquisa contemporânea. Nenhuma das IAs conseguiu acertar mais de 2% das questões. Mas as ferramentas, como de costume, não admitiram a derrota: deram, com confiança, as respostas erradas.

Continua após a publicidade
Compartilhe essa matéria via:

As IAs são alimentadas por LLMs, ou large language models. Isso significa que elas são treinadas com quantidades imensas de textos e identificam os padrões neles para prever a sequência mais provável em resposta à uma solicitação. Quanto mais bem treinadas, mais precisas elas podem ficar – mas ainda assim, estão sempre sujeitas a erros.

No caso da matemática, os modelos costumam ser excelentes em testes de nível de ensino médio – como foi o caso da IA da Google DeepMind que conseguiu medalha de prata na Olimpíada Internacional de Matemática. Mas especialistas apontam que esses resultados precisam ser analisados levando em conta que as IAs já haviam acessado um enorme volume de questões semelhantes disponíveis na internet.

Continua após a publicidade

Nesses assuntos mais simples, é como a IA estivesse “colando” de outras fontes. O teste com questões complexas e inéditas mostrou que o raciocínio matemático em si não está bem desenvolvido o suficiente. 

Os especialistas que participaram da elaboração do teste acreditam que é apenas uma questão de tempo até que o desempenho das IAs na matemática se torne competitivo para humanos. Eles afirmam que ainda faltam dados para treinar essas ferramentas, e que o aprimoramento deve ocorrer com a utilização da IA junto aos humanos, como uma estratégia complementar. 

O estudo ainda não foi oficialmente publicado (ou seja, ainda não passou pela revisão de outros especialistas) e está disponível em pré-print.

Publicidade


Matéria exclusiva para assinantes. Faça seu login

Este usuário não possui direito de acesso neste conteúdo. Para mudar de conta, faça seu login

ECONOMIZE ATÉ 88% OFF

Super Promoção! Digital Completo

Apenas R$ 1,99/mês nos 3 primeiros meses
Garanta acesso ilimitado aos sites, apps, edições e acervo de todas as marcas Abril
Após o terceiro mês, cancele a qualquer momento
De: R$ 16,90/mês
Por 1,99/mês

Revista em Casa + Digital Completo

Receba Super impressa e tenha acesso ilimitado ao site, edições digitais e acervo de todos os títulos Abril nos apps*
a partir de R$ 14,90/mês

*Acesso ilimitado ao site e edições digitais de todos os títulos Abril, ao acervo completo de Veja e Quatro Rodas e todas as edições dos últimos 7 anos de Claudia, Superinteressante, VC S/A, Você RH e Veja Saúde, incluindo edições especiais e históricas no app. Pagamento único trimestral de R$5,97, a partir do quarto mês, R$ 16,90/mês. Oferta exclusiva para assinatura trimestral no Plano Digital Promocional.

PARABÉNS! Você já pode ler essa matéria grátis.
Fechar

Não vá embora sem ler essa matéria!
Assista um anúncio e leia grátis
CLIQUE AQUI.