A versión 3.0 do CORGA xa acubilla 36,8 millóns de palabras

venres, 3 de novembro do 2017 Fernando Sarasketa

O Corpus Documental do Galego Actual (CORGA), conxunto en liña de textos (xornalísticos, divulgativos, literarios) da nosa lingua e con marcado potencial para os diferentes ámbitos da investigación humanística e científica, vén de estrear a súa versión 3.0. Hoxe mesmo foi presentada na sede do Centro Ramón Piñeiro en Santiago, desenvolvedor do corpus, nun acto que contou coa presenza do secretario xeral de Política Lingüística, Valentín García, quen fixo fincapé nas destacábeis cifras ás que vén de chegar a devandita ferramenta en liña: un acubillo para 36,8 millóns de palabras, das que 570.000 son formas diferentes. No capítulo de novidades, salientou a incorporación dunha pequena mostra representativa do rexistro oral da década dos 90 con transcricións nas que se aliña o texto coa voz e a etiquetaxe automática a través do Etiquetador/Lematizador do Galego Actual (XIADA).
Segundo engadiu o secretario xeral, “o CORGA 3.0 dá un novo paso para poñer a disposición da comunidade científica e dos falantes e da cidadanía en xeral posibilidades para o estudo e a investigación lingüística, nomeadamente para a obtención de datos referidos aos aspectos morfolóxicos, sintácticos e léxicos” e “faino, de acordo coas directrices do Plan xeral de normalización lingüística, da man das tecnoloxías da información e da comunicación e do impulso aos recursos tecnolóxicos da lingua propia de Galicia”.
Acompañárono na presentación o coordinador científico do Centro Ramón Piñeiro, Manuel González; a directora do CORGA, Marisol López; o secretario da Real Academia Española e colaborador do Centro Ramón Piñeiro, Guillermo Rojo, e os responsábeis da coordinación lingüística e informática do proxecto, os investigadores da Universidade de Santiago de Compostela (USC) Eva Domínguez e Mario Barcala, respectivamente.
O CORGA, para quen non o saiba, é un corpus documental desenvolvido no dito Centro, por medio dun convenio de colaboración coa USC, e integrado por distintos tipos de textos (xornais, semanarios, revistas, ensaios e textos de ficción) que abrangue temporalmente desde o ano 1975 até a actualidade e que está codificado no estándar XML (eXtensible Markup Language).
Segundo se fixo saber no acto desenvolvido en Santiago, a nova versión ampliada, a 3.0, está dispoñíbel enderezo corpus.cirp.es/corga e nela intégranse os dous sistemas de consulta en liña dispoñíbeis previamente, o do CORGA e o do CORGAetq, nun único sistema que “dá cabida ás diferentes aproximacións de busca e preséntase un motor de busca excepcionalmente potente que sitúa o galego na vangarda dos corpus lingüísticos”, informouse.
Como dixemos, no capítulo de novidades a nova entrega do CORGA incorpora un achegamento ao rexistro oral da década dos 90, en cuxas transcricións alíñase o texto coa voz, de maneira que á hora de facer e obter operacións de procura teremos a posibilidade de escoitar o anaco de audio que corresponde ao contexto dos resultados obtidos. De todos xeitos, a característica máis salientábel, en palabras dos responsábeis das devanditas entidades, é a etiquetaxe automática da totalidade dos documentos que conforman o CORPUS empregando o Etiquetador/Lematizador do Galego Actual (XIADA), desenvolvido conxuntamente polo CIRP e polo grupo COLE das universidades da Coruña e Vigo.

PUBLICIDADE