O CiTIUS achega novas ferramentas para extraer, analizar e procesar moreas de datos en galego e castelán

martes, 3 de febreiro do 2015 Redacción

O investigador Marcos García

O coñecemento medra e son precisos métodos que nos axuden non só a darlle acubillo senón tamén a clasificalo, xestionalo, ordenalo, protexelo e, sobre todo, recuperalo cando faga falta. Segundo cálculos recentes, o volume de información xerado dende a orixe da civilización até 2003 apenas equivalería á morea de datos que os internautas achegamos en dúas xornadas. Por outra banda, non hai ningún sinal que indique que esta tendencia vaia ir a menos, máis ben o contrario. Visto isto, estanse a xerar ferramentas informáticas específicas para afrontar este crecemento e favorecer a análise e procesado de datos. O problema é que non están na nosa lingua. Dende o CiTIUS de Santiago están a contrarrestar esta situación.
Como dixemos, a maré de coñecemento fai que sexa precisa unha fórmula de innovación constante no ámbito dos recursos TIC para o estudo, xestión e o tratamento dos datos, recursos que abranguen un amplo espectro de técnicas computacionais e atinxindo ás áreas de procesamento de linguaxe natural e extracción de información. Segundo explican fontes do CiTIUS, o procesamento de linguaxe natural “ten múltiples aplicacións, entre as que figuran os tradutores automáticos ou a aprendizaxe de idiomas online”. Porén, estes avances están sobre todo dispoñíbeis en linguas como o inglés, pero pouco se fornece para idiomas como o galego, o galego-portugués ou mesmo o castelán. Nestes idiomas, sinala o centro compostelán, “a tecnoloxía da que podemos botar man é moito máis limitada”.
Para contrarrestar estas eivas, o investigador do CiTIUS Marcos García dedicou a súa tese doutoral ao desenvolvemento dunha serie de ferramentas tecnolóxicas destinadas a mellorar a capacidade de procesamento destas tres linguas, un traballo enmarcado na liña de investigación mixta na que dende hai tempo veñen colaborando o CiTIUS e o Grupo de Gramática do Español da Universidade de Santiago de Compostela (USC).
Os sistemas de extracción aberta, sinala o CiTIUS, “permiten analizar a Rede para obter e organizar automaticamente grandes cantidades de información, o que resulta moi útil á hora de discernir ideas ou mensaxes entre a maraña de datos da rede”. Nun plano máis concreto e para facérmonos unha idea do alcance do traballo de Marcos, os resultados desta tese permitirían inferir de xeito moi sinxelo unidades semánticas doadamente recoñecibles, como «Santiago está en Galicia» ou «a idade de Messi é 27 anos», a partir da información dispoñíbel na Rede. O centro da USC tamén salienta que o sistema de extracción aberta é o primeiro en estar dispoñíbel para galego, portugués e castelán, e tamén é o primeiro en fornecer resultados altamente competitivos cos mellores sistemas en lingua inglesa. A solución, un conxunto de ferramentas lingüísticas desenvolvidas baixo unha licenza de software libre, pode ser descargada xunto cos seus elementos a través da ligazón gramatica.usc.es.
Por certo que a liña de investigación que acubilla este traballo deu lugar tamén á creación dunha nova empresa especializada en tecnoloxías da linguaxe: a spin-off do CiTIUS Cilenis Software, creada en 2011 e galardoada no mesmo ano co Primeiro Premio ó mellor Proxecto Empresarial Innovador.

PUBLICIDADE