Un investigador galego mellora o sistema de recuperación de información dixital
mércores, 27 de xaneiro do 2010
Nos tempos que corren, nos que practicamente
tódalas institucións, tanto públicas como privadas, están a dixitalizar os seus
documentos e xerando os novos en formato electrónico a fin de volver a eles e á
información que conteñen da maneira máis rápida e eficaz posible, é necesario
que os criterios de busca sexan claros e concretos, algo que co noso idioma faise
unha tarefa máis complicada que noutras linguas debido ó dobre significado e a
ambigüidade segmental de moitas palabras.
Neste contexto, o investigador da Escola
Superior de Enxeñaría Informática da Universidade de Vigo, Juan Otero, vén de
desenvolver para a súa tese de doutoramento un
sistema de corrección ortográfica que soluciona os problemas máis
importantes á hora de procesar as consultas nun sistema de recuperación de
información.
A principal achega do seu traballo consiste, segundo indicou o propio
investigador, “na creación dun método que
resulta moito máis eficiente que os métodos globais clásicos”.
Baixo o título Análise léxico robusto,
Otero aborda o desenvolvemento e a avaliación de técnicas de corrección
ortográfica robusta e a súa aplicación en contornas de recuperación de
información nas que as consultas presentan erros.
Os sistemas de recuperación de información permiten localizar aqueles
documentos dunha colección que satisfagan os requirimentos dun usuario,
expresados en forma de consultas en linguaxe natural, pero é frecuente a
introdución de erros ortográficos ou de dixitación á hora de facer as procuras,
de aí a importancia de desenvolver ferramentas como as que agora achega este
investigador ourensán.
O método de
corrección ortográfica elaborado por Otero foi integrado na ferramenta de
etiquetación morfosintáctica Mr. Tagoo, desenvolvida no grupo de investigación
Compiladores e Linguaxes da Universidade de Vigo, ao que tamén pertence o autor
da tese. Deste xeito, obtívose unha solución integral capaz de resolver de
forma eficiente os tres problemas principais que se presentan á hora de
procesar as consultas nun sistema de recuperación de información, “a ambigüidade segmental, a ambigüidade
morfosintáctica e a corrección ortográfica contextual”, explicou Otero.
O resultado dos experimentos, realizados nunha contorna de recuperación de
información con consultas degradadas, poñen de manifesto que “o emprego de técnicas de corrección
ortográfica ten un impacto moi positivo sobre os sistemas de recuperación de
información”, fronte a outras propostas realizadas con anterioridade.
Ademais, como alternativa á aplicación de algoritmos de corrección ortográfica,
avaliouse tamén “unha técnica de
recuperación de información baseada en n-gramas de carácteres superpostos, que
presenta a vantaxe de non requirir ningún recurso lingüístico extra”, e
ofreceu tamén uns excelentes resultados en contornas nas que existe un elevado
número de erros nas consultas.