Sociedade, Tecnologia

Como a Wikipedia está tentando se proteger de textos escritos por inteligência artificial

O mau uso da inteligência artificial interfere no conteúdo e nas referências dos verbetes da enciclopédia. Mas um novo projeto promete cuidar desse problema.

Por Bela Lobato
19 out 2024, 16h00

Foto da página da Wikipedia. — (tomch/Getty Images)

Em 2024, qualquer pesquisa na internet parece fadada a dar de cara com conteúdos produzidos por inteligência artificial (IA) com boas chances de imprecisos ou inventados (e cuja verificação é por vezes difícil). Textos feitos por robôs têm ganhado cada vez mais espaço em blogs, livros na Amazon, no Google Books e até em revistas científicas.

A Wikipédia, maior enciclopédia do mundo, não está livre disso. Mas ela tenta se desvencilhar ao máximo. Recentemente, um grupo de editores criou o projeto WikiProject AI Cleanup, “uma colaboração para combater o problema crescente de conteúdo gerado por IA sem fontes e mal escrito na Wikipédia”.

Vamos entender como a Wiki funciona – e por que esse projeto se faz tão necessário.

Modus operandi

A Wikipédia é mantida inteiramente por trabalho voluntário e resiste no mesmo formato original há décadas. E, se há alguns anos você pode ter ouvido de professores que ele não era confiável, agora a situação se inverteu: a plataforma é uma das poucas que inclui referências checáveis para todas as suas informações.

É claro que não é fácil manter um site colaborativo desse tamanho, com 6,8 milhões de artigos em inglês e 1,1 milhão em português. Entre os voluntários há uma hierarquia de redatores, editores e moderadores que têm diferentes poderes para zelar pela integridade dos textos e imagens do site.

Existem muitos tipos de intervenções feitas pela IA na Wikipédia, desde pequenos trechos mal escritos até conceitos e referências completamente inventadas. Mas não é fácil encontrar essas edições, já que muitas vezes a linguagem utilizada por programas como o ChatGPT é extremamente parecida com a linguagem humana. Mas existem algumas estratégias.

Continua após a publicidade

Para começar, os editores conseguem filtrar os artigos cujos autores não passaram da primeira fase da cara-de-pau e incluíram a resposta fornecida pela IA na íntegra. Assim, é fácil encontrar textos com trechos como “de acordo com a minha última atualização de conhecimento”, frase que o ChatGPT usa referindo-se à última vez que o modelo de linguagem foi atualizado.

Esses são os casos mais fáceis de filtrar. Existem ainda casos em que a IA se confunde, cria dados, mistura realidade e invenções. Esse tipo de resposta confiante, mas sem embasamento, é conhecida como “alucinação artificial”, e também pode ser identificada com relativa facilidade.

Quando a coisa complica

Existem casos mais espinhosos, como o que envolveu o verbete do Forte de Amberlihisar. No artigo, que já foi retirado do ar (mas ainda pode ser acessado em arquivo), era possível encontrar as datas de construção e nome dos criadores dessa antiga fortaleza otomana. Havia a explicação da origem do nome, sobre o estilo arquitetônico, batalhas travadas naquele solo, uso cultural, esforços de reparação nos anos 2000…

Seria um artigo bem completo, se não fosse por um problema: o forte nunca existiu. Alguns dos personagens e eventos históricos mencionados até existiram, mas as dezenas de referências que embasam o artigo são de livros e artigos inventados. O verbete ficou no ar por quase todo o ano de 2023, até que em dezembro ele finalmente foi pego pelo radar dos editores.

Continua após a publicidade

A questão das referências é a mais complexa. Isso porque, além de inventar fontes completamente novas, as IA também citam referências reais, mas que não têm nada a ver com aquele assunto.

O artigo sobre espécie de besouro Estola albosignata, por exemplo, tinha parágrafos escritos por IA que citavam fontes alemãs e francesas reais. Essas referências, entretanto, eram sobre assuntos completamente diferentes – uma delas falava sobre caranguejos. Esse tipo de checagem exige um trabalho minucioso dos editores, que muitas vezes é dificultado pelo uso de outros idiomas.

O problema tem ainda outra camada: o uso de imagens criadas por IA. Veja a figura a seguir, por exemplo. Em algum momento, ela foi utilizada para ilustrar o artigo sobre o seminário indiano Darul Uloom Deoband:

Continua após a publicidade

Uma imaginação de IA do início do seminário islâmico em Darul Uloom Deoband. — – (Wikimedia Commons/Wikimedia Commons)

De primeira, talvez você só enxergue uma pintura de época. Notou algo estranho? Que tal os seis dedos do pé do homem mais alto ou as mãos engalfinhadas do outro? As páginas do livro em um ângulo incompreensível, os olhos sem pupilas, o pé do homem no chão em uma posição anatomicamente impossível. A imagem foi retirada do artigo, e é um exemplo do tipo de conteúdo que é vedado.

A caçada não é propriamente contra as imagens geradas por IA. Isso porque podem existir cenários em que elas são adequadas, especialmente em verbetes que abordam a arte gerada por IA.

Por exemplo: existe um artigo que discute uma teoria da conspiração divulgada pelo ex-presidente dos EUA, Donald Trump, de que imigrantes haitianos estavam comendo animais de estimação no estado de Ohio, nos EUA. A página elenca a origem e o andamento histórico da conspiração, e inclui uma imagem gerada por IA que, na época, foi tuítada pelo Comitê do Judiciário da Câmara dos Estados Unidos.

Continua após a publicidade

A imagem mostra Trump fazendo biquinho e segurando um pato e um gato em uma enchente, e é incluída no artigo da Wikipédia por se tratar de uma parte importante da história, criada e utilizada por outras pessoas. Ela não foi criada com a intenção de ilustrar o artigo, mas é parte da discussão.

Imagem gerada por IA de Donald Trump em pé na água com um gato e um pato. — Um exemplo de imagem gerada por IA que pode constar em um artigo da Wikipédia: um print do tuíte feito pelo Comitê do Judiciário da Câmara dos Estados Unidos. (WikiProject AI Cleanup/Reprodução)

À frente dos outros

Apesar do volume (e da dificuldade) da curadoria de conteúdo, o trabalho de procurar e eliminar a IA na Wikipédia parece estar sendo mais bem-sucedido do que em outras grandes plataformas, que em geral só retiram o conteúdo após denúncias e agravamentos.

Em entrevistas ao portal 404 Media, dois fundadores do WikiProject AI Cleanup destacaram que o trabalho humano de detecção tem se mostrado muito mais eficiente do que o de ferramentas como o GPT-Zero, que se propõe a determinar se o conteúdo foi ou não criado por IA.

Continua após a publicidade

“Embora eu goste de pensar que os wikipedistas são decentes na detecção e remoção de conteúdo de IA, há, sem dúvida, muita coisa que escapa e somos todos voluntários”, disse o moderador cujo usuário na Wiki é “Queen of Hearts” (“Rainha de Copas”), membro fundador do WikiProject AI Cleanup. “Embora o fracasso das grandes empresas em detectar e remover o lixo de IA seja preocupante, acredito que elas poderiam fazer melhor do que nós com recursos devidamente alocados.”