O galego mellorará a súa presenza no mundo dixital grazas aos 10.000 fragmentos de voz do Validatón
venres, 11 de abril do 2025
O Proxecto Nós e o Instituto da Lingua Galega (ILG) impulsaron este 10 de abril unha nova edición (a segunda) do Validatón 2025, un maratón de validación de fragmentos de voz en galego para contribuír á creación de recursos para a nosa lingua en Common Voice, unha plataforma pública de datos de voz. A actividade estivo dirixida a estudantes da Facultade de Filoloxía da USC e constou de dúas fases: unha en liña con contribucións en Common Voice ata as 12.00 horas e unha segunda presencial no ILG pola tarde. O Validatón 2025 pechou cun balance de 10.000 fragmentos de audio revisados e gravados durante a fase en liña, que supoñen 13 horas de contribución aos datos de voz en galego en Common Voice: 6 de gravación e 7 de validación.
Ademais, na fase presencial deste xoves en Filoloxía, os participantes crearon un total de 1.920 frases que se engadirán á plataforma para a súa lectura.
A actividade premiou a participación en tres categorías: Víctor Pose, en gravación de fragmentos de voz; Álex Rodríguez Guisantes, en validación de audios; e Lucía López Lires, en xeración de frases. Tamén foi recoñecida como campioa global Noa Sobrino Lamas por “ser a persoa con máis contribucións totais”. Todos eles recibiron premios en metálico grazas ao apoio de Atlantic Ponte e Imaxin Software. En total, unha trintena de persoas participaron nesta segunda edición do Validatón.
A participación no Validatón foi posíbel en tres categorías: gravación de fragmentos de voz, validación de audios e xeración de frases. As gañadoras foron as persoas con máis contribucións totais e máis as gañadoras de cada categoría.
O ILG e o Proxecto Nós lembraron que para adestrar modelos de recoñecemento da fala cómpre utilizar grandes corpus de datos orais, “pero a maioría, en especial os que usan as grandes compañías, son datos pechados e non están dispoñíbeis”. Neste sentido, Common Voice, ao ser unha plataforma pública de datos de voz alimentada por persoas voluntarias de todo o mundo, “axuda a que as tecnoloxías sexan accesíbeis para quen as queira desenvolver”, explicaron, engadindo que “as persoas contribúen a Common Voice doando a súa voz e tamén xulgando como válidas ou non as doazóns feitas por outras persoas, xerando deste xeito ese corpus público que permitirá que no futuro distintas aplicacións informáticas poidan comprender as persoas que falen en galego”.
Outra iniciativa
Alén do Validatón, os coordinadores do Proxecto Nós lembran que o alumnado de grao da Universidade de Santiago de Compostela tamén pode contribuír a mellorar a presenza do galego no mundo dixital participando nunha actividade formativa de recollida e validación de datos de voz en galego certificada pola USC como formación a través do recoñecemento dun crédito ECTS.
Proxecto Nós
O Proxecto Nós é unha iniciativa para situar o galego xunto coas linguas máis desenvolvidas no ámbito da tecnoloxía da lingua e a Intelixencia Artificial. O seu obxectivo principal é xerar os recursos necesarios para facilitar o desenvolvemento de servizos e produtos baseados na tecnoloxía da lingua como asistentes de voz, tradutores automáticos ou axentes conversacionais.
En paralelo, o proxecto promove tamén a presenza dixital do galego, facilitando a creación dunha ampla variedade de ferramentas e recursos de alta calidade e de uso libre, algunhas das cales xa están á disposición e accesíbeis a través da web do proxecto para calquera persoa, institución, organización ou empresa que queira desenvolver un produto tecnolóxico, aplicación ou servizo que incorpore a lingua galega. Deste xeito, ademais de garantir os dereitos lingüísticos da comunidade galegofalante no mundo dixital, tamén se contribuirá á modernización e dixitalización do ecosistema de empresas galegas e á creación de valor con novos produtos que empreguen o galego.
O Proxecto Nós é unha iniciativa da Secretaría Xeral da Lingua (Xunta) cuxa execución foi encomendada á Universidade de Santiago de Compostela (USC), a través de dúas entidades punteiras de investigación en Intelixencia Artificial e Tecnoloxías da linguaxe: o ILG e o CiTIUS.