Imprimir Resumo


Simpósio Mundial de Estudos de Língua Portuguesa
Resumo


CLASSIFICADORES AUTOMÁTICOS DE IDENTIFICAÇÃO DA COMPLEMENTARIDADE: APRIMORAMENTO NA DESCRIÇÃO DE FENÔMENOS LINGUÍSTICOS PARA SUMARIZAÇÃO AUTOMÁTICA MULTIDOCUMENTO

Autores:
Jackson Wilke da Cruz Souza (UFSCAR - Universidade Federal de São Carlos)

Resumo:

No contexto de disseminação da informação digital, a INDEX (CISCO,2017) projeta que 3.3 Zettabytes de informação estarão em circulação na Web em 2021. Neste contexto, subáreas de Processamento de Línguas Naturais (PLN) desenvolvem soluções linguísticas-computacionais para dinamizar o pouco tempo que o usuário tem frente à demanda de informações (MANI,2001). Uma dessas subáreas é a Sumarização Automática Multidocumento (SAM), em que se visa criar sumários automáticos a partir de uma coleção de textos-fonte que versam sobre um mesmo assunto (MANI 2001). Com o objetivo de viabilizar a SAM e o aperfeiçoamento da seleção de conteúdo dos sumários, algumas pesquisas da área (p.ex. SOUZA;DI-FELIPPO,2018) realizaram descrições linguísticas de fenômenos multidocumentos. Um desses fenômenos é a Complementaridade, a qual ocorre quando, em um par de sentença (S1,S2), S2 elabora alguma informação apresentada por S1. O modelo teórico Cross-Document Structure Theory (CST) traduz esse a complementaridade em três relações semântico-discursivas: Historical Background e Follow-up (temporal), e Elaboration (atemporal). Sabe-se que, até então, atributos linguísticos que denotam informações temporais são relevantes para identificar automaticamente tais relações CST (SOUZA,2016), obtendo classificadores automáticos com 75% de acerto. Assim, sob a hipótese de que informações linguísticas profundas pudessem ampliar o alcance dos classificadores, propôs-se um conjunto mais refinado de atributos que potencialmente caracterizam a Complementaridade. Após a análise manual dos pares de sentenças anotados com as relações CST de complementaridade do corpus CSTNews (CARDOSOetal,2011), chegou-se a uma tipologia de 62 sinalizadores, organizados em Anáfora, Estrutura textual, Pontuação, Morfologia, Sintaxe, Semântica, Temporal e Traço Complementar. A partir disso, com o auxílio de algoritmos simbólicos de AM, foi possível construir novos classificadores, cujo acerto foi de 97.25%. Empregando-se a mesma metodologia do estado-da-arte, ambos os testes o superaram, contribuindo ao PLN com uma descrição mais refinada e específica para a identificação automática dos fenômenos multidocumento e, consequentemente, o aprimoramento de seleção de conteúdo para os sumários automáticos.


Agência de fomento:
CAPES