Sistema do Google consegue identificar textos gerados por IA; veja como
SynthID altera as frases de maneira sutil, imperceptível para um leitor humano; saiba como funciona o watermarking de IA, que será vital para o futuro da internet
A proliferação de sites fajutos, com textos gerados por IA, deve se tornar um problema cada vez maior no futuro: eles poluem a internet com conteúdo de baixa qualidade e confundem as ferramentas de busca, dificultando que você encontre o que procura. Mas o sistema SynthID, criado pelo Google, pode ajudar a combater isso. Ele marca, com padrões estatísticos imperceptíveis a olho nu, o conteúdo gerado com as ferramentas de IA do Google – permitindo que seja identificado depois.
Os “grandes modelos de linguagem” (LLMs), como o ChatGPT e o Gemini, foram alimentados com uma enorme quantidade de texto, e a partir daí determinaram estatisticamente quais palavras têm maior probabilidade de aparecer ao lado de outras. É assim que eles escrevem (para uma explicação mais detalhada, e interessante, leia nossa matéria de capa de fevereiro de 2023).
O SynthID altera, de forma sutil, esses “pesos estatísticos” empregados pela IA. Ele troca palavras por outras, seguindo um padrão predefinido.
Veja a frase acima, em que o robô está escrevendo a frase My favourite tropical fruits are mango (“Minhas frutas tropicais preferidas são manga…”). Estatisticamente, o mais provável seria continuar usando a palavra and (cujo peso estatístico, P, é 0,35) ou a palavra plus (0,30). Porque é assim que os textos humanos, usados para alimentar a IA, geralmente são escritos.
Mas o SynthID muda esses pesos: nessa frase, ele eleva bastante a probabilidade de usar a palavra and (cujo peso aumenta para 0,66), e reduz a probabilidade da palavra plus (0,10). Essa modificação, que pode ser feita em até dez palavras por frase, segue uma lógica interna determinada pelo SynthID – e “carimba” aquele texto como gerado por IA.
É uma marca d’água digital que, no futuro, poderá ser detectada pelo seu navegador – que poderá alertar quando você estiver lendo um texto escrito por robôs.
Em outubro, o Google publicou um artigo científico no qual o SynthID é testado em 20 milhões de respostas geradas por IA – segundo a empresa, ele se mostrou eficaz e não comprometeu a redação delas. O sistema já está ativado no Gemini, e desenvolvedores de IA também podem adicioná-lo a outros modelos de linguagem – o SynthID foi liberado em código aberto.
Em agosto, a OpenAI anunciou que estava abandonando suas tentativas de criar uma tecnologia do tipo. Ela alegou dificuldades técnicas. Mas segundo o Wall Street Journal, que teve acesso a documentos internos da OpenAI, a verdadeira razão seria outra: a empresa não quer que os textos gerados pelo ChatGPT sejam identificáveis porque, se isso acontecer, menos pessoas irão usar o bot.
O SynthID também é capaz de identificar fotos, vídeos e músicas geradas pelas IAs do Google. Por enquanto, ele só está disponível para desenvolvedores, não para o público.
No começo deste ano, um consórcio de empresas que inclui Adobe e Microsoft apresentou a tecnologia Content Credentials, que permite checar a autenticidade de fotos online (e identificar imagens geradas ou manipuladas por IA). Mas ela ainda é incipiente: foi adotada por poucos sites.