O CiTIUS achega novas ferramentas para extraer, analizar e procesar moreas de datos en galego e castelán
martes, 3 de febreiro do 2015
- O investigador Marcos García
O coñecemento medra e
son precisos métodos que nos axuden non só a darlle acubillo senón
tamén a clasificalo, xestionalo, ordenalo, protexelo e, sobre todo,
recuperalo cando faga falta. Segundo cálculos recentes, o volume de
información xerado dende a orixe da civilización até 2003 apenas
equivalería á morea de datos que os internautas achegamos en dúas
xornadas. Por outra banda, non hai ningún sinal que indique que esta
tendencia vaia ir a menos, máis ben o contrario. Visto isto, estanse
a xerar ferramentas informáticas específicas para afrontar este
crecemento e favorecer a análise e procesado de datos. O problema é
que non están na nosa lingua. Dende
o CiTIUS de Santiago están a contrarrestar esta situación.
Como dixemos, a maré
de coñecemento fai que sexa precisa unha fórmula de innovación
constante no ámbito dos recursos TIC para o estudo, xestión e o
tratamento dos datos, recursos que abranguen un amplo espectro de
técnicas computacionais e atinxindo ás áreas de
procesamento
de linguaxe natural
e extracción
de información. Segundo explican fontes do CiTIUS, o procesamento de linguaxe natural “ten múltiples aplicacións,
entre as que figuran os tradutores automáticos ou a aprendizaxe de
idiomas online”. Porén, estes avances están sobre todo
dispoñíbeis en linguas como o inglés, pero pouco se fornece para
idiomas como o galego, o galego-portugués ou mesmo o castelán.
Nestes idiomas, sinala o centro compostelán, “a tecnoloxía da que
podemos botar man é moito máis limitada”.
Para contrarrestar
estas eivas, o investigador do CiTIUS Marcos
García dedicou a súa tese doutoral ao desenvolvemento dunha
serie de ferramentas tecnolóxicas destinadas a mellorar a capacidade
de procesamento destas tres linguas, un traballo enmarcado na liña
de investigación mixta na que dende hai tempo veñen colaborando o
CiTIUS e o Grupo
de Gramática do Español da Universidade de Santiago de
Compostela (USC).
Os sistemas de
extracción aberta, sinala o CiTIUS, “permiten analizar a Rede para
obter e organizar automaticamente grandes cantidades de información,
o que resulta moi útil á hora de discernir ideas ou mensaxes entre
a maraña de datos da rede”. Nun plano máis concreto e para
facérmonos unha idea do alcance do traballo de Marcos, os resultados
desta tese permitirían inferir de xeito moi sinxelo unidades
semánticas doadamente recoñecibles, como «Santiago está en
Galicia» ou «a idade de Messi é 27 anos», a partir da información
dispoñíbel na Rede. O centro da USC tamén salienta que o sistema
de extracción aberta é o primeiro en estar dispoñíbel para
galego, portugués e castelán, e tamén é o primeiro en fornecer
resultados altamente competitivos cos mellores sistemas en lingua
inglesa. A solución, un conxunto de ferramentas lingüísticas
desenvolvidas baixo unha licenza de software libre, pode ser
descargada xunto cos seus elementos a través da ligazón
gramatica.usc.es.
Por certo que a liña
de investigación que acubilla este traballo deu lugar tamén á
creación dunha nova empresa especializada en tecnoloxías da
linguaxe: a spin-off do CiTIUS Cilenis
Software,
creada en 2011 e galardoada no mesmo ano co Primeiro Premio ó mellor
Proxecto Empresarial Innovador.