Desenvolvimento de uma configuração GDEX para um corpus de português acadêmico | Autores: Tanara Zingano Kuhn (CELGA-ILTEC, UNIVERSIDADE DE COIMBRA - Centro de Estudos de Linguística Geral e Aplicada da Universidade de Coimbra) |
Resumo: GDEX - Good Dictionary Examples (Kilgarriff et al., 2008) é uma ferramenta do Sketch Engine que encontra automaticamente bons exemplos para dicionários em um corpus. Na sua base está a configuração GDEX: uma fórmula composta por classificadores referentes a características lexicais e sintáticas, com determinados valores e pesos. O sistema analisa as concordâncias e avalia seus componentes, atribuindo prêmios e penalizações de acordo com esses parâmetros, produzindo uma pontuação final. Frases com melhor pontuação indicam maior adequação para bons exemplos e são automaticamente colocadas mais acima na lista de concordâncias, ajudando assim os lexicógrafos com a laboriosa tarefa de seleção de exemplos. A presente contribuição relata o desenvolvimento da configuração GDEX para identificação automática de exemplos no Corpus de Português Escrito em Periódicos - CoPEP (Kuhn & Ferreira, 2018). Inicialmente, fiz experimentações com características básicas da fórmula, que consistia nos mesmos classificadores presentes no GDEX para o Esloveno (versão 2), apenas com o acréscimo de um novo classificador e ajuste de valores e pesos. Em seguida, adotei um novo procedimento, no qual as características estatísticas do CoPEP foram utilizadas como referência para definição de valores para classificadores, e que conduzi no novo editor GDEX (atualmente fornecido como versão beta). Uma de suas vantagens é permitir ajustes rápidos dos classificadores, cuja influência pode ser medida imediatamente, facilitando a comparação e a avaliação das configurações. Por fim, é possível concluir que o método adotado para o desenvolvimento da configuração GDEX para o CoPEP gerou bons resultados, estando a versão mais recente (AcadPort-4_GDEX) disponível para qualquer pessoa que use o Sketch Engine. O próximo passo envolve a integração de estatísticas obtidas a partir de exemplos avaliados por humanos e a comparação dos resultados das duas configurações. A análise poderá contribuir para o aperfeiçoamento dos valores, ou até mesmo revelar potencial para novos classificadores.
|
|