O Centro Ramón Piñeiro lanza as versións 3.1 e 2.7 de CORGA e XIADA

xoves, 11 de abril do 2019 Redacción

O Centro Ramón Piñeiro para a Investigación e Humanidades, dependente da Secretaría Xeral de Política Lingüística, vén de publicar as novas versións de dúas ferramentas moi relevantes e útiles para facer avanzar a presenza do galego nas novas tecnoloxías da información. Estamos a falar do proxecto CORGA (Corpus de Referencia do Galego Actual), que vén de publicar a súa versión 3.1, e máis do etiquetador/lematizador XIADA, da que se lanzou a versión 2.7. As contribucións foron posíbeis grazas ao traballo do Centro Ramón Piñeiro e a súa alianza coa Universidade de Santiago.
Respecto de CORGA, é froito directo do compromiso do Centro Ramón Piñeiro para desenvolver e deseñar recursos informáticos que axuden á incorporación da lingua galega ao mundo das novas ferramentas dixitais. O Corpus de Referencia do Galego Actual (CORGA) é un corpus documental aberto que abrangue cronoloxicamente dende 1975 ata a actualidade, cuxo obxectivo é fornecer datos para o estudo da lingua galega actual dende múltiples perspectivas: léxica, morfolóxica, sintáctica, fraseolóxica, terminolóxica, comunicativa etc. O corpus, enriquecido automaticamente coa lematización e etiquetaxe morfosintáctica dos seus textos, contén 40.178.271 palabras ortográficas (48.184.012 elementos gramaticais) pertencentes maioritariamente a distintos tipos de textos escritos representativos do galego actual, mais tamén inclúe 25 horas de transcricións ortográficas de programas de radio nas que se aliña o texto coa voz.
A versión 3.1 de CORGA vén coas seguintes novidades: a complección textual do lustro 2010-2014 e inicio do 2015-2019, unha funcionalidade de recuperación centrada no parámetro interlocutor (o cal permite discriminar entre os textos de carácter oral fronte ós escritos), o recoñecemento automático das formas con grafías innovadoras para a linguaxe non sexista, a implementación do hiperlema nas modalidades de consulta por elementos gramaticais para minimizar a variación gráfica nos lemas, e, por último, un incremento das posibilidades de ordenación dos resultados.
No que atinxe a XIADA, que estreou a versión 2.7, é un etiquetador estatístico de alta precisión que se emprega para etiquetar e lematizar de maneira automática os documentos do CORGA, e poder así avanzar na recuperación de información formulando consultas con información gramatical (etiquetas, lemas, hiperlemas, clases de palabras, trazos morfosintácticos etc.).
Esta nova versión presenta, entre outros, os seguintes cambios: a liberación do código do etiquetador xunto cos recursos que este emprega (corpus de adestramento e lexicón), a ampliación do etiquetario con 71 novas etiquetas para dar cabida ás grafías innovadoras que promoven unha linguaxe non sexista, a actualización da estrutura do lexicón para facilita-la análise das formas que presentan as grafías anteriores (de xeito que nen@, nen@s, nena/o, neno/a, nena/neno, neno/nena, etc, intégranse baixo o lema neno, igual ca nena, neno, nenos e nenas) ou, tamén, a neutralización da variación gráfica formal en lemas semellantes relacionándoos a través dun hiperlema (na nova versión o lexicón contén 59.360 hiperlemas).
O equipo de traballo estivo formado por Guillermo Rojo e María Sol López Martínez (dirección e coordinación), Eva María Domínez Noya, María Caíña Hurtado, Bárbara Bujía Tourón (lingüístas) e NLPgo Technologies e José Carlos Sánchez Rivas (equipo informático).

PUBLICIDADE