O CiTIUS achega novas ferramentas para extraer, analizar e procesar moreas de datos en galego e castelán

martes, 3 de febreiro do 2015 Redacción


O investigador Marcos García

O coñecemento medra e son precisos métodos que nos axuden non só a darlle acubillo senón tamén a clasificalo, xestionalo, ordenalo, protexelo e, sobre todo, recuperalo cando faga falta. Segundo cálculos recentes, o volume de información xerado dende a orixe da civilización até 2003 apenas equivalería á morea de datos que os internautas achegamos en dúas xornadas. Por outra banda, non hai ningún sinal que indique que esta tendencia vaia ir a menos, máis ben o contrario. Visto isto, estanse a xerar ferramentas informáticas específicas para afrontar este crecemento e favorecer a análise e procesado de datos. O problema é que non están na nosa lingua. Dende o CiTIUS de Santiago están a contrarrestar esta situación.
Como dixemos, a maré de coñecemento fai que sexa precisa unha fórmula de innovación constante no ámbito dos recursos TIC para o estudo, xestión e o tratamento dos datos, recursos que abranguen un amplo espectro de técnicas computacionais e atinxindo ás áreas de procesamento de linguaxe natural e extracción de información. Segundo explican fontes do CiTIUS, o procesamento de linguaxe natural “ten múltiples aplicacións, entre as que figuran os tradutores automáticos ou a aprendizaxe de idiomas online”. Porén, estes avances están sobre todo dispoñíbeis en linguas como o inglés, pero pouco se fornece para idiomas como o galego, o galego-portugués ou mesmo o castelán. Nestes idiomas, sinala o centro compostelán, “a tecnoloxía da que podemos botar man é moito máis limitada”.
Para contrarrestar estas eivas, o investigador do CiTIUS Marcos García dedicou a súa tese doutoral ao desenvolvemento dunha serie de ferramentas tecnolóxicas destinadas a mellorar a capacidade de procesamento destas tres linguas, un traballo enmarcado na liña de investigación mixta na que dende hai tempo veñen colaborando o CiTIUS e o Grupo de Gramática do Español da Universidade de Santiago de Compostela (USC).
Os sistemas de extracción aberta, sinala o CiTIUS, “permiten analizar a Rede para obter e organizar automaticamente grandes cantidades de información, o que resulta moi útil á hora de discernir ideas ou mensaxes entre a maraña de datos da rede”. Nun plano máis concreto e para facérmonos unha idea do alcance do traballo de Marcos, os resultados desta tese permitirían inferir de xeito moi sinxelo unidades semánticas doadamente recoñecibles, como «Santiago está en Galicia» ou «a idade de Messi é 27 anos», a partir da información dispoñíbel na Rede. O centro da USC tamén salienta que o sistema de extracción aberta é o primeiro en estar dispoñíbel para galego, portugués e castelán, e tamén é o primeiro en fornecer resultados altamente competitivos cos mellores sistemas en lingua inglesa. A solución, un conxunto de ferramentas lingüísticas desenvolvidas baixo unha licenza de software libre, pode ser descargada xunto cos seus elementos a través da ligazón gramatica.usc.es.
Por certo que a liña de investigación que acubilla este traballo deu lugar tamén á creación dunha nova empresa especializada en tecnoloxías da linguaxe: a spin-off do CiTIUS Cilenis Software, creada en 2011 e galardoada no mesmo ano co Primeiro Premio ó mellor Proxecto Empresarial Innovador.

Subscríbete ao noso boletín

En móbiles e tabletas

Redes sociais

O CiTIUS achega novas ferramentas para extraer, analizar e procesar moreas de datos en galego e castelán

Na mesma sección

O ciclo sobre adicións tecnolóxicas do Concello de Lugo contará este xoves con Jorge Mira

As oportunidades do escenario virtual da Deputación da Coruña, a debate no foro La Galicia que viene

Os riscos da ciberdelincuencia, ao detalle este xoves pola mañá nun novo foro de ConsumES e UCGAL

O CiTIUS celebra o martes 30 unha xornada de portas abertas para alumnado da USC

Medio cento de xuristas do eido lusófono debateron na UVigo os impactos da IA no Dereito

Qualcomm presenta os procesadores Snapdragon X Plus

TikTok Lite suspende o seu programa de recompensas

A Xunta apoia os festivais audiovisuais e de novos contidos con 300.000 euros

PUBLICIDADE