Clique e Assine SUPER por R$ 9,90/mês
Continua após publicidade

Classificador usa IA para diferenciar heterônimos de Fernando Pessoa

O projeto, criado por alunos da USP, identifica os quatro estilos de escrita do poeta com 82,71% de precisão. Entenda como o algoritmo funciona.

Por Maria Clara Rossini
Atualizado em 9 ago 2022, 14h03 - Publicado em 22 mar 2021, 15h14

Álvaro era o mais pessimista, Alberto se ancorava na natureza e sensações físicas, Ricardo admirava a simplicidade, e Bernardo gostava de escrever sobre o cotidiano. Se esses nomes não acenderam uma faísca na sua mente, vale lembrar que eles são todos a mesma (ou o mesmo) Pessoa. O mais célebre autor da língua portuguesa é também um dos maiores criadores de heterônimos. Fernando Pessoa escrevia poemas assumindo personalidades diferentes, cada uma com suas próprias características e histórias de vida.

A maioria dos estudantes aprende a diferenciar os estilos de Álvaro Campos, Alberto Caeiro, Ricardo Reis e Bernardo Soares (este último sendo um semi-heterônimo do poeta) ainda no ensino médio. Mas será que um computador conseguiria fazer o mesmo?

Essa era a pergunta do Turing, um grupo de extensão formado por alunos da USP. Eles usaram aprendizado de máquina para criar um classificador de heterônimos do autor português. A ideia surgiu quando o grupo estudava temas relacionados ao processamento de linguagem natural, como a classificação de texto.

Aqui vale um adendo: processamento de linguagem natural é a área da Inteligência Artificial que lida com línguas humanas, como português, inglês, espanhol etc. É ela que está por trás de ferramentas como o Google Tradutor e das respostas automáticas de assistentes virtuais.

A equipe usou o banco de dados do Arquivo Pessoa, que contém todos os poemas de heterônimos do autor português. Após fazer a formatação dos textos (que às vezes chegam desorganizados), os estudantes treinaram a máquina para reconhecer palavras que fossem características de cada personalidade.

Se a palavra ‘casa’ aparece em todos os heterônimos, ela não é um bom indicador de distinção entre eles. Mas se ‘copo’ aparece muitas vezes em um e poucas vezes em outro, então usamos essa palavra como um diferenciador entre os autores”, diz Lucas Sepeda, membro do grupo Turing que participou do projeto.

Digamos que a palavra diferencial seja mesmo “copo”. Os poemas que contém essa palavra são classificados de um lado, enquanto os que não contém são colocados de outro. O algoritmo, então, traça um plano que separa esses dois tipos de texto.

Acontece que o programa não usa apenas uma palavra para diferenciar os heterônimos, mas milhares delas. O resultado é um espaço virtual com diversas dimensões – uma para cada palavra – e um hiperplano que separa os autores. O algoritmo acerta quem é o autor do texto em 82,71% dos casos.

Continua após a publicidade
Cada ponto representa um texto. As cores diferenciam os heterônimos do autor.
Cada ponto representa um texto. As cores diferenciam os heterônimos do autor (Grupo Turing/Reprodução)

O maior desafio foi fazer uma ferramenta que funcionasse para o português – o idioma como um todo, e não apenas o autor. “Existem menos estudos e dados para desenvolver modelos em português. Com ferramentas em inglês seria mais fácil de fazer”, diz Fernando Matsumoto, membro do Turing que também participou do projeto.

O objetivo do grupo de estudos é justamente viabilizar mais ferramentas para a nossa língua. Enquanto a maior parte dos membros do grupo é composta por alunos da área de exatas, a líder da área de Processamento de Linguagem Natural, Julia Pocciotti, é estudante de linguística na Faculdade de Filosofia, Letras e Ciências Humanas da USP.

“Os nossos pilares são estudar, aplicar e disseminar a Inteligência Artificial”, diz Pocciotti. Por isso, todos os códigos de programação do grupo Turing são abertos. O classificador de heterônimos de Fernando Pessoa encontra-se disponível aqui.

Publicidade

Matéria exclusiva para assinantes. Faça seu login

Este usuário não possui direito de acesso neste conteúdo. Para mudar de conta, faça seu login

Oferta dia dos Pais

Receba a Revista impressa em casa todo mês pelo mesmo valor da assinatura digital. E ainda tenha acesso digital completo aos sites e apps de todas as marcas Abril.

OFERTA
DIA DOS PAIS

Impressa + Digital
Impressa + Digital

Receba Super impressa e tenha acesso ilimitado ao site, edições digitais e acervo de todos os títulos Abril nos apps*

a partir de 9,90/mês

Digital Completo
Digital Completo

Acesso ilimitado ao site, edições digitais e acervo de todos os títulos Abril nos apps*

a partir de 9,90/mês

ou

*Acesso ilimitado ao site e edições digitais de todos os títulos Abril, ao acervo completo de Veja e Quatro Rodas e todas as edições dos últimos 7 anos de Claudia, Superinteressante, VC S/A, Você RH e Veja Saúde, incluindo edições especiais e históricas no app.
*Pagamento único anual de R$118,80, equivalente a 9,90/mês.

PARABÉNS! Você já pode ler essa matéria grátis.
Fechar

Não vá embora sem ler essa matéria!
Assista um anúncio e leia grátis
CLIQUE AQUI.