Ampla presenza do CITIC no gran congreso mundial sobre procesamento de linguaxe natural

xoves, 1 de agosto do 2019 Redacción

O Centro de Investigación TIC da Universidade da Coruña (o CITIC) ten representación estes días na edición 57 do Annual Meeting of the Association for Computational Linguistics (ACL 2019) que se está a celebrar en Florencia e que se confirma, novamente, como o congreso máis relevante de cantos se desenvolven a nivel internacional no eido do Procesamento de Linguaxe Natural. Polo CITIC están a participar os investigadores Carlos Gómez, David Vilares e Michalina Strzyz, que presentan os seus últimos avances no marco do programa Starting Grant FASTPARSE para a axuda de grupos de investigación que impulsa a institución europea ERC.
O primeiro dos traballos amosados, HEAD-QA: A Healthcare Dataset for Complex Reasoning, analiza o rendemento das técnicas de procura de respostas (Question Answering) baseadas en redes neuronais ante preguntas reais dos exames MIR e EIR de acceso ao sistema público de saúde.
O segundo deles, Sequence Labeling Parsing by Learning Across Representations, describe unha nova técnica baseada en etiquetaxe de secuencias capaz de aprender, á vez, a analizar de maneira sintáctica un texto en base tanto á paradigma de constituíntes (constituency parsing) como o de dependencias (dependency parsing). Isto contrasta cos métodos actuais, que abordan ambos por separado.
Por outra banda, Marcos García, investigador Juan de la Cierva-Incorporación do LYS, presentará os avances noutra das liñas de investigación de referencia do grupo: o procesamento de colocacións lingüísticas e expresións multipalabra, de gran impacto tanto no procesamento sintáctico como semántico dun texto (por exemplo en sistemas de tradución). No primeiro destes traballos, Pay attention when you pay the bills. A multilingual corpus with dependency-based and semantic annotation of collocations, dáse a coñecer un novo corpus multilingüe (español, portugués e inglés) anotado a nivel de colocacións e con información semántica. Segundo confirma o CITIC, “sen este tipo de recursos lingüístico-computacionais non habería posibilidade de abordar tarefas complexas de procesamento da linguaxe natural como poden ser, neste caso, a creación de ferramentas de apoio á aprendizaxe de idiomas ou a xeración da linguaxe natural, por exemplo para asistentes virtuais”.
Amais de todo o devandito, ao abeiro do obradoiro ACL Workshop on Multiword Expressions and WordNet, Marcos García presenta outras dúas contribucións. A primeira delas (en colaboración con Marcos García e Margarita Alonso), titulada A comparison of statistical association measures for identifying dependency-based collocations in various languages mostra unha das principais aplicacións lexicográficas do anterior corpus, a avaliación de técnicas, neste caso estatísticas, para a identificación e extracción automática de colocacións en textos. O segundo traballo, Unsupervised Compositional Translation of Multiword Expressions, froito da colaboración co investigador Pablo Gamallo do CiTIUS (USC), propón unha nova técnica non supervisada de tradución de expresións multipalabra, unha técnica baseada no emprego dependencias sintácticas que permite prescindir dos clásicos corpus paralelos e empregar unicamente monolingües (o que supón avances neste eido, sobre todo de face a idiomas con menos recursos lingüístico-computacionais dispoñíbeis, como é o caso do galego).
Finalmente, o investigador Juan de la Cierva presenta, no ACL Workshop on Computational Approaches to Historical Language Change o traballo A method to automatically identify diachronic variation in collocations. Este, que entroncaría co eido das Humanidades Dixitais, describe un método de análise diacrónico de colocacións que, partindo de corpus históricos, analiza o seu uso ao longo do tempo e, en caso de desaparecer, é quen de propor alternativas empregando técnicas de semántica de distribución.

PUBLICIDADE