Clique e Assine SUPER por R$ 9,90/mês
Continua após publicidade

Classificador usa IA para diferenciar heterônimos de Fernando Pessoa

O projeto, criado por alunos da USP, identifica os quatro estilos de escrita do poeta com 82,71% de precisão. Entenda como o algoritmo funciona.

Por Maria Clara Rossini
Atualizado em 9 ago 2022, 14h03 - Publicado em 22 mar 2021, 15h14
  • Seguir materia Seguindo materia
  • .
     (Casa Fernando Pessoa/Divulgação)

    Álvaro era o mais pessimista, Alberto se ancorava na natureza e sensações físicas, Ricardo admirava a simplicidade, e Bernardo gostava de escrever sobre o cotidiano. Se esses nomes não acenderam uma faísca na sua mente, vale lembrar que eles são todos a mesma (ou o mesmo) Pessoa. O mais célebre autor da língua portuguesa é também um dos maiores criadores de heterônimos. Fernando Pessoa escrevia poemas assumindo personalidades diferentes, cada uma com suas próprias características e histórias de vida.

    Publicidade

    A maioria dos estudantes aprende a diferenciar os estilos de Álvaro Campos, Alberto Caeiro, Ricardo Reis e Bernardo Soares (este último sendo um semi-heterônimo do poeta) ainda no ensino médio. Mas será que um computador conseguiria fazer o mesmo?

    Publicidade

    Essa era a pergunta do Turing, um grupo de extensão formado por alunos da USP. Eles usaram aprendizado de máquina para criar um classificador de heterônimos do autor português. A ideia surgiu quando o grupo estudava temas relacionados ao processamento de linguagem natural, como a classificação de texto.

    Aqui vale um adendo: processamento de linguagem natural é a área da Inteligência Artificial que lida com línguas humanas, como português, inglês, espanhol etc. É ela que está por trás de ferramentas como o Google Tradutor e das respostas automáticas de assistentes virtuais.

    Publicidade

    A equipe usou o banco de dados do Arquivo Pessoa, que contém todos os poemas de heterônimos do autor português. Após fazer a formatação dos textos (que às vezes chegam desorganizados), os estudantes treinaram a máquina para reconhecer palavras que fossem características de cada personalidade.

    Se a palavra ‘casa’ aparece em todos os heterônimos, ela não é um bom indicador de distinção entre eles. Mas se ‘copo’ aparece muitas vezes em um e poucas vezes em outro, então usamos essa palavra como um diferenciador entre os autores”, diz Lucas Sepeda, membro do grupo Turing que participou do projeto.

    Publicidade

    Digamos que a palavra diferencial seja mesmo “copo”. Os poemas que contém essa palavra são classificados de um lado, enquanto os que não contém são colocados de outro. O algoritmo, então, traça um plano que separa esses dois tipos de texto.

    Acontece que o programa não usa apenas uma palavra para diferenciar os heterônimos, mas milhares delas. O resultado é um espaço virtual com diversas dimensões – uma para cada palavra – e um hiperplano que separa os autores. O algoritmo acerta quem é o autor do texto em 82,71% dos casos.

    Publicidade
    Continua após a publicidade
    Cada ponto representa um texto. As cores diferenciam os heterônimos do autor.
    Cada ponto representa um texto. As cores diferenciam os heterônimos do autor (Grupo Turing/Reprodução)

    O maior desafio foi fazer uma ferramenta que funcionasse para o português – o idioma como um todo, e não apenas o autor. “Existem menos estudos e dados para desenvolver modelos em português. Com ferramentas em inglês seria mais fácil de fazer”, diz Fernando Matsumoto, membro do Turing que também participou do projeto.

    O objetivo do grupo de estudos é justamente viabilizar mais ferramentas para a nossa língua. Enquanto a maior parte dos membros do grupo é composta por alunos da área de exatas, a líder da área de Processamento de Linguagem Natural, Julia Pocciotti, é estudante de linguística na Faculdade de Filosofia, Letras e Ciências Humanas da USP.

    Publicidade

    “Os nossos pilares são estudar, aplicar e disseminar a Inteligência Artificial”, diz Pocciotti. Por isso, todos os códigos de programação do grupo Turing são abertos. O classificador de heterônimos de Fernando Pessoa encontra-se disponível aqui.

    Publicidade
    Publicidade

    Matéria exclusiva para assinantes. Faça seu login

    Este usuário não possui direito de acesso neste conteúdo. Para mudar de conta, faça seu login

    Domine o fato. Confie na fonte.

    10 grandes marcas em uma única assinatura digital

    MELHOR
    OFERTA

    Digital Completo
    Digital Completo

    Acesso ilimitado ao site, edições digitais e acervo de todos os títulos Abril nos apps*

    a partir de 9,90/mês

    ou
    Impressa + Digital
    Impressa + Digital

    Receba Super impressa e tenha acesso ilimitado ao site, edições digitais e acervo de todos os títulos Abril nos apps*

    a partir de 14,90/mês

    *Acesso ilimitado ao site e edições digitais de todos os títulos Abril, ao acervo completo de Veja e Quatro Rodas e todas as edições dos últimos 7 anos de Claudia, Superinteressante, VC S/A, Você RH e Veja Saúde, incluindo edições especiais e históricas no app.
    *Pagamento único anual de R$118,80, equivalente a 9,90/mês.

    PARABÉNS! Você já pode ler essa matéria grátis.
    Fechar

    Não vá embora sem ler essa matéria!
    Assista um anúncio e leia grátis
    CLIQUE AQUI.