A NORMALIZAÇÃO DE CORPORA PARA CONSTRUÇÃO DE UM VOCABULÁRIO BILÍNGUE, PORTUGUÊS-INGLÊS, DE LINGUÍSTICA GERAL | Autores: Márcio Issamu Yamamoto (UFJ - Universidade Federal de Jataí) |
Resumo: Normalizar, conforme o dicionário Aulete, significa padronizar as operações. Neste sentido, a normalização de corpora é parte do processo metodológico da Terminografia, o que subentende que corpora sejam equilibrados quanto ao tipo, ao tamanho e que suas características sejam as mesmas. O objetivo desta comunicação é descrever como conduzimos a normalização de corpora bilíngues, português-inglês, na área de Linguística. Estes corpora servirão ao propósito da construção de um vocabulário bilíngue, cujo suporte teórico-metodológico é a Linguística de Corpus (ALVES; TAGNIN, 2012). A normalização se aplica a três corpora, subdivididos em três subcorpora, tais quais: (1) subcorpora de artigos científicos em português; (2) ) subcorpora de artigos científicos em inglês; e (3) ) subcorpora de manuais de Linguística em português e em inglês. Os subcorpora dos artigos científicos são compostos por dissertações, teses, artigos científicos, aulas, resenhas, apostilas, livros, monografias, pôsteres e resenhas; já os subcorpora de manuais giram em torno de 1 milhão e meio de itens cada, cuja língua de partida é o português brasileiro. Como parte do processo de normalização, o balanceamento destes corpora é feito com a adequação do mesmo tamanho, em torno de 500 mil itens para cada subcorpus ou subárea da Linguística, aplicável aos subcorpora um e dois. Ou seja, como a maioria dos corpora já foram compilados, eles podem estar acima ou abaixo deste padrão, justificando este balanceamento. Para fazer a adequação da dimensão, usamos o programa WordSmith Tools (SCOTT, 2015), e a ferramenta utilizada é o PLOT, que descreve a densidade terminológica dentro das obras compiladas. Essa ferramenta permite que textos com maior densidade terminológica sejam mantidos, em detrimento aos menos densos, a partir de uma lista das 10 palavras-chaves mais recorrentes nos corpora. Os procedimentos previamente citados buscam atender aos princípios da Linguística de Corpus de representatividade, balanceamento, amostragem, diversidade e tamanho dos corpora.
|
|