O CiTIUS traballa nun proxecto para facilitar ao máximo o procesamento de textos masivos

martes, 27 de outubro do 2015 Redacción

O CiTIUS (Centro Singular de Investigación en Tecnoloxías da Información emprazado no Campus Vida de Santiago), presentou os días pasados as características e obxectivos dun proxecto de seu destinado a facilitar ao máximo o procesamento lingüístico de grande cantidades de texto e información masiva. Falamos de BigNLP: Aproximando a Computación de Altas Prestacións ás Tecnoloxías Big Data: Aplicación ao Procesamento da Linguaxe Natural. Como se indica no seu epígrafe, trátase de facer doado o tratamento lingüístico de cantidades inxentes de coñecemento. O reto dos investigadores do proxecto (Juan Carlos Pichel Campos e Tomás Fernández Pena) é superar os atrancos existentes até o de agora na devandita tarefa: o alto custe computacional e os problemas de adaptación e evolución das técnicas de procesamento actuais.
Estes atrancos, sinalan, fan inviábeis estas metodoloxías existentes para a análise de grandes volumes (gigabytes e terabytes) de documentos. O proxecto parte pois da seguinte base: a computación de altas prestacións e o uso de estratexias orientadas a Big Data encaixan de maneira natural como solución á limitada eficiencia computacional dos módulos actuais para o procesamento lingüístico. Así, sinalan, “a relativa simplicidade modular dos procesos, así como a clara independencia das unidades lingüísticas de entrada (frases, parágrafos, textos...), son factores a ter en conta que poden facilitar a integración dos módulos de PLN no contexto dos sistemas computacionais de altas prestacións mediante o uso de tecnoloxías Big Data”.
Así pois, o obxectivo principal do proxecto é o de desenvolver un conxunto de novas ferramentas e solucións para o tratamento de información masiva, o que vai permitir integrar nunha suite paralela (con capacidade de evolucionar e adaptarse a diferentes contornas) un conxunto de módulos multilingües para o procesamento da linguaxe natural. “Esta suite”, explican os investigadores do CiTIUS, “debe procesar grandes cantidades de texto en tempos de execución reducidos e, ao mesmo tempo, facer un uso eficiente das plataformas hardware de altas prestacións que se consideren, prestando especial atención ás arquitecturas heteroxéneas”.
Máis polo miúdo, vanse considerar módulos para tarefas como por exemplo a extracción de termos multipalabra, as análises sintácticas ou de co-referencia e ou o estudo de sentimentos. Os responsábeis do proxecto destacan, neste punto, que os novos módulos PLN que se van a desenvolver poderán utilizarse en aplicacións lingüísticas máis complexas e de alto nivel, como a tradución automática, a recuperación de información ou sistemas de vixilancia tecnolóxica, etc.

PUBLICIDADE