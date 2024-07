Você já se perguntou se o texto que você está lendo em algum lugar da internet (como esse aqui mesmo), foi gerado pelo ChatGPT? Um grupo de pesquisadores criou um novo método para estimar se um texto foi gerado por uma inteligência artificial ou não.

Com o sucesso das inteligências artificiais generativas e dos modelos de linguagem (large language model ou LLM), essas tecnologias são empregadas em quase tudo. Elas são utilizadas para a produção de biografias, vídeos, e até mesmo filmes.

Assim, pesquisadores da Universidade Northwestern, nos EUA, e da Universidade de Tübingen, na Alemanha, desenvolveram um método para analisar a frequência que certas palavras são repetidas em textos científicos.

Eles descobriram que algumas palavras se tornaram mais frequentes em resumos de artigos científicos nos anos de 2023 e 2024, período em que as LLM se popularizaram. O método desenvolvido pelos autores sugere que pelo menos 10% dos resumos foram processados utilizando IAs só em 2024.

O método foi inspirado em pesquisas e estudos realizados no decorrer da pandemia do coronavírus, que mediram o impacto do número de mortes por Covid 19 durante e após a pandemia.

Eles analisaram 14 milhões de resumos de artigos científicos publicados no banco de dados do PubMed entre os anos de 2010 e 2024. Nos resumos, foi observada a frequência relativa que determinadas palavras apareciam a cada ano.

Depois dessa etapa, eles analisaram a frequência que essas palavras apareciam antes e após 2023, ano que marca o surgimento dos modelos LLM.

Os resultados mostraram que várias palavras até então incomuns em resumos científicos começaram a aparecer de forma constante. A palavra delves (aprofundar, em inglês), por exemplo, apareceu pelo menos 25 vezes mais em artigos em 2024 do que costumava aparecer antes.

Já palavras como showcasing (exibindo) ou underscore (ressaltar), apareceram nove vezes mais. Outras palavras também tiveram aumento, como potential (potencial), que aumentou em 4,1%, findings (descobertas) que cresceu em 2,7%, e crucial (crucial) que subiu 2,6%.

O aumento da utilização de determinadas palavras é algo relativamente comum, e pode acontecer independente do uso de IAs. Entretanto, o aumento grande e repentino de um ano para o outro geralmente está ligado a grandes eventos mundiais, como eventos de saúde, como o ebola em 2015; a zika em 2017; e coronavírus, bloqueio e pandemia, no período de 2020 a 2022.

Enquanto as palavras que cresceram durante a pandemia eram substantivos, as mais comuns após ao surgimento das IAs foram “palavras de estilo”, como verbos, adjetivos e advérbios. Alguns exemplos são palavras como across (através), additionally (adicionalmente), comprehensive (compreensivo), crucial (crucial), enhancing (melhorado), exhibited (exibido), notably (notavelmente), particularly (particularmente), e within (dentro).

Veja como é possível identificar essas palavras e de que forma elas costumam aparecer nos resumos:

“A comprehensive grasp of the intricate interplay between […] and […] is pivotal for effective therapeutic strategies” (Uma compreensão abrangente da interação intrincada entre […] e […] é crucial para estratégias terapêuticas eficazes.)

Com a utilização cada vez maior de IA generativas, é importante que as pessoas passem a notar essas palavras, já que essas ferramentas às vezes inventam referências, fornecem resumos imprecisos ou fazem afirmações falsas que parecem convincentes.

