Imprimir Resumo


Simpósio Mundial de Estudos de Língua Portuguesa
Resumo


Elaboração de corpus anotado para o processamento de substantivos predicativos

Autores:
Ryan Marçal Saldanha Magaña Martinez (UFSCAR - Universidade Federal de São Carlos)

Resumo:

A fala apresenta, resumidamente, um trabalho de mestrado que tem como objetivo estabelecer diretrizes para corpora visando o processamento automático de substantivos predicativos em português e, subsequentemente, a elaboração de um corpus anotado segundo os preceitos estabelecidos. Sua constituição partiu do modelo de papel semântico do PropBank, que estabelece distinções claras entre proto-agentes e proto-pacientes, apresentando etiquetas mais genéricas para outros argumentos. As definições de predicado e, mais especificamente, dos substantivos predicativos, é fortemente baseada em Gross (1981), tendo o verbo suporte como central para sua caracterização sintático-semântica. As diretrizes de anotação foram elaboradas tendo em conta essa e outras fontes que definem, principalmente por meios de testes formais, as construções com verbo suporte. Assim, caracterizamos o substantivo predicativo como essencialmente sendo ligado a um de seus argumentos por um verbo que adiciona marcas de tempo, modo e aspecto ao substantivo, configuração que permite uma série de transformações. Partindo de materiais já existentes, nomeadamente léxico-gramáticas do português e o corpus PropBank.br, utilizamos regras para anotar automaticamente substantivos predicativos e seus argumentos, levando em conta as diferentes configurações sintáticas em que se dão, sobre 2547 sentenças de textos jornalísticos. Em uma segunda etapa, anotadores treinados segundo as diretrizes estabelecidas corrigem as anotações automáticas. Até o momento, foi verificada uma medida F de 35,62 para as anotações automáticas em comparação com uma revisão humana sobre metade do corpus, porção que corresponde a 4979 predicados, segundo a revisão humana. Procedimentos posteriores incluirão o cálculo de concordância entre anotadores e a quantificação de diferentes fenômenos encontrados no corpus.

Orientador: Oto Araújo Vale