Ampla presenza do CITIC no gran congreso mundial sobre procesamento de linguaxe natural
xoves, 1 de agosto do 2019
O
Centro de Investigación TIC da Universidade da Coruña (o CITIC) ten
representación estes días na edición 57 do Annual
Meeting of the Association for Computational Linguistics (ACL
2019) que se está a celebrar en Florencia e que se confirma,
novamente, como o congreso máis relevante de cantos se desenvolven a
nivel internacional no eido do Procesamento de Linguaxe Natural. Polo
CITIC están a participar os investigadores Carlos Gómez, David
Vilares e Michalina Strzyz, que presentan os seus últimos
avances no marco do programa Starting
Grant FASTPARSE para a axuda de grupos de investigación que
impulsa a institución europea ERC.
O
primeiro dos traballos amosados, HEAD-QA: A Healthcare Dataset for
Complex Reasoning, analiza o rendemento das técnicas de procura
de respostas (Question Answering) baseadas en redes neuronais
ante preguntas reais dos exames MIR e EIR de acceso ao sistema
público de saúde.
O
segundo deles, Sequence Labeling Parsing by Learning Across
Representations, describe unha nova técnica baseada en
etiquetaxe de secuencias capaz de aprender, á vez, a analizar de
maneira sintáctica un texto en base tanto á paradigma de
constituíntes (constituency parsing) como o de dependencias
(dependency parsing). Isto contrasta cos métodos actuais, que
abordan ambos por separado.
Por
outra banda, Marcos García, investigador Juan de la
Cierva-Incorporación do LYS, presentará os avances noutra das liñas
de investigación de referencia do grupo: o procesamento de
colocacións lingüísticas e expresións multipalabra, de gran
impacto tanto no procesamento sintáctico como semántico dun texto
(por exemplo en sistemas de tradución). No primeiro destes
traballos, Pay attention when you pay the bills. A multilingual
corpus with dependency-based and semantic annotation of collocations,
dáse a coñecer un novo corpus multilingüe (español, portugués e
inglés) anotado a nivel de colocacións e con información
semántica. Segundo confirma o CITIC, “sen este tipo de recursos
lingüístico-computacionais non habería posibilidade de abordar
tarefas complexas de procesamento da linguaxe natural como poden ser,
neste caso, a creación de ferramentas de apoio á aprendizaxe de
idiomas ou a xeración da linguaxe natural, por exemplo para
asistentes virtuais”.
Amais
de todo o devandito, ao abeiro do obradoiro ACL Workshop on
Multiword Expressions and WordNet, Marcos García presenta outras
dúas contribucións. A primeira delas (en colaboración con Marcos
García e Margarita Alonso), titulada A comparison of statistical
association measures for identifying dependency-based collocations in
various languages mostra unha das principais aplicacións
lexicográficas do anterior corpus, a avaliación de técnicas, neste
caso estatísticas, para a identificación e extracción automática
de colocacións en textos. O segundo traballo, Unsupervised
Compositional Translation of Multiword Expressions, froito da
colaboración co investigador Pablo Gamallo do CiTIUS (USC), propón
unha nova técnica non supervisada de tradución de expresións
multipalabra, unha técnica baseada no emprego dependencias
sintácticas que permite prescindir dos clásicos corpus paralelos e
empregar unicamente monolingües (o que supón avances neste eido,
sobre todo de face a idiomas con menos recursos
lingüístico-computacionais dispoñíbeis, como é o caso do
galego).
Finalmente,
o investigador Juan de la Cierva presenta, no ACL Workshop on
Computational Approaches to Historical Language Change o traballo
A method to automatically identify diachronic variation in
collocations. Este, que entroncaría co eido das Humanidades
Dixitais, describe un método de análise diacrónico de colocacións
que, partindo de corpus históricos, analiza o seu uso ao longo do
tempo e, en caso de desaparecer, é quen de propor alternativas
empregando técnicas de semántica de distribución.