Tecnologia

Essas palavras em inglês revelam se o texto foi gerado por uma IA.

Algumas palavras aparecem de nove a 25 vezes mais em artigos científicos publicados após 2023.

Por Caio César Pereira
13 jul 2024, 16h00

Mãos de robô digitando em um teclado. — (XH4D/Getty Images/Reprodução)

Você já se perguntou se o texto que você está lendo em algum lugar da internet (como esse aqui mesmo), foi gerado pelo ChatGPT? Um grupo de pesquisadores criou um novo método para estimar se um texto foi gerado por uma inteligência artificial ou não.

Com o sucesso das inteligências artificiais generativas e dos modelos de linguagem (large language model ou LLM), essas tecnologias são empregadas em quase tudo. Elas são utilizadas para a produção de biografias, vídeos, e até mesmo filmes.

Assim, pesquisadores da Universidade Northwestern, nos EUA, e da Universidade de Tübingen, na Alemanha, desenvolveram um método para analisar a frequência que certas palavras são repetidas em textos científicos.

Eles descobriram que algumas palavras se tornaram mais frequentes em resumos de artigos científicos nos anos de 2023 e 2024, período em que as LLM se popularizaram. O método desenvolvido pelos autores sugere que pelo menos 10% dos resumos foram processados utilizando IAs só em 2024.

O método foi inspirado em pesquisas e estudos realizados no decorrer da pandemia do coronavírus, que mediram o impacto do número de mortes por Covid 19 durante e após a pandemia.

Continua após a publicidade

Eles analisaram 14 milhões de resumos de artigos científicos publicados no banco de dados do PubMed entre os anos de 2010 e 2024. Nos resumos, foi observada a frequência relativa que determinadas palavras apareciam a cada ano.

Depois dessa etapa, eles analisaram a frequência que essas palavras apareciam antes e após 2023, ano que marca o surgimento dos modelos LLM.

Os resultados mostraram que várias palavras até então incomuns em resumos científicos começaram a aparecer de forma constante. A palavra delves (aprofundar, em inglês), por exemplo, apareceu pelo menos 25 vezes mais em artigos em 2024 do que costumava aparecer antes.

Já palavras como showcasing (exibindo) ou underscore (ressaltar), apareceram nove vezes mais. Outras palavras também tiveram aumento, como potential (potencial), que aumentou em 4,1%, findings (descobertas) que cresceu em 2,7%, e crucial (crucial) que subiu 2,6%.

Continua após a publicidade

O aumento da utilização de determinadas palavras é algo relativamente comum, e pode acontecer independente do uso de IAs. Entretanto, o aumento grande e repentino de um ano para o outro geralmente está ligado a grandes eventos mundiais, como eventos de saúde, como o ebola em 2015; a zika em 2017; e coronavírus, bloqueio e pandemia, no período de 2020 a 2022.

Enquanto as palavras que cresceram durante a pandemia eram substantivos, as mais comuns após ao surgimento das IAs foram “palavras de estilo”, como verbos, adjetivos e advérbios. Alguns exemplos são palavras como across (através), additionally (adicionalmente), comprehensive (compreensivo), crucial (crucial), enhancing (melhorado), exhibited (exibido), notably (notavelmente), particularly (particularmente), e within (dentro).

Veja como é possível identificar essas palavras e de que forma elas costumam aparecer nos resumos:

Continua após a publicidade

“A comprehensive grasp of the intricate interplay between […] and […] is pivotal for effective therapeutic strategies” (Uma compreensão abrangente da interação intrincada entre […] e […] é crucial para estratégias terapêuticas eficazes.)

Com a utilização cada vez maior de IA generativas, é importante que as pessoas passem a notar essas palavras, já que essas ferramentas às vezes inventam referências, fornecem resumos imprecisos ou fazem afirmações falsas que parecem convincentes.