O galego sitúase na vangarda das tecnoloxías intelixentes a través do Proxecto Nós-ILENIA

O encontro Tecnoloxía en galego: resultados de ILENIA – Proxecto Nós serviu este xoves 18 para dar a coñecer os resultados dos últimos tres anos de traballo do Proxecto Nós no marco de ILENIA, unha iniciativa do Goberno de España orientada a avanzar en recursos e capacidades en tecnoloxías lingüísticas, en particular para as linguas do Estado. Datos, casos de uso e ferramentas abertas de tradución automática, síntese de voz e modelos lingüísticos en galego déronse a coñecer neste foro que se desenvolveu no Centro de Estudos Avanzados e que foi clausurado pola vicerreitora de Política Científica da USC, Pilar Bermejo.
A xornada comezou coa apertura institucional a cargo de Aleida Alcaide, directora xeral de Intelixencia Artificial do Goberno de España, quen puxo en valor a importancia de contar coas linguas oficiais plenamente integradas nas novas tecnoloxías. “Os datos, infraestruturas e talento son elementos básicos para desenvolver a intelixencia artificial. O terceiro ingrediente esencial é o talento, ese que tedes tanto en Galicia, dou fe, porque a participación de persoas galegas nas convocatorias da AESIA é inxente e con grandes currículos”, destacou. A continuación, Elisa Fernández Rei, directora do Instituto da Lingua Galega (ILG), e Senén Barro, director do Centro Singular de Investigación en Tecnoloxías Intelixentes da USC (CiTIUS), presentaron o marco xeral de ILENIA–Proxecto Nós durante o trienio 2022-2025. Fernández Rei sinalou que "temos que seguir avanzando nesta dirección co fin de garantir que poderemos exercer os nosos dereitos lingüísticos no mundo dixital". Pola súa parte, Senén Barro puxo o foco en como “todos os recursos que se comprometan para poñer en valor estas tecnoloxías serán ben investidos e sempre serán escasos. O que será extraordinariamente caro é non facelo".
Un dos bloques centrais da xornada estivo dedicado á presentación de datos e casos de uso, no que participaron representantes do propio Proxecto Nós e entidades colaboradoras como a Fundación Mozilla, Imaxin Software, AMTEGA e CREAGAL. Neste apartado cómpre salientar o labor desenvolvido na recompilación de datos lingüísticos, xa que, por exemplo, nos últimos tres anos as horas de voz para recoñecemento automático da fala pasaron de 10 a 3.227. En Common Voice figuran na actualidade 385 horas de banco de voces colaborativo cando inicialmente había só 18, multiplicando por 20 a súa presenza neste período e convertendo así o galego na décima lingua das 163 existentes nesta plataforma pública de datos de voz. Common Voice é unha plataforma en aberto deseñada para a creación comunitaria de conxuntos de datos de fala e texto na que calquera persoa pode preservar, revitalizar e promover a súa lingua compartindo, creando e organizando conxuntos de datos de texto e voz. Alén diso, esta recollida de fragmentos de audio estase a realizar coa colaboración da Xunta de Galicia, buscando ademais a representación das variedades dialectais do galego, para deste xeito xerar un corpus público alleo aos cambios tecnolóxicos e de libre uso.
No encontro expúxose tamén o traballo desenvolvido en RAG (acrónimo anglosaxón de Xeración Aumentada de Información - Retrieval Augmented Generation), unha das técnicas empregadas para controlar as alucinacións dos modelos de intelixencia artificial mellorando en xeral a calidade da interacción do usuario cos modelos grandes de linguaxe. Este espazo deu acollida tamén á presentación do primeiro tradutor neuronal en galego, que ademais ofrece mellores prestacións obxectivas con respecto a outros existentes e que conta tamén con diversas vantaxes adicionais: é un recurso público, permite traducir tanto texto plano coma arquivos e, ademais, está integrado na Plataforma de Tradución Automática da Axencia Estatal de Administración Dixital (PLaTa).
Outros dos casos de uso expostos foron os vinculados aos sistemas de conversión de texto a voz (TTS, do inglés Text-to-Speech), en concreto os exemplos de voces sintéticas en galego mais a iniciativa AhoMyTTS, unha ferramenta de síntese de voz que permite converter texto escrito en fala natural. AhoMyTTS funciona a partir de modelos de intelixencia artificial desenvolvidos pola Universidade do País Vasco e está adaptada para diferentes linguas, entre elas o galego, a través da colaboración do proxecto Nós. Estes demostradores —o tradutor e o TTS— teñen como obxectivo facilitar a transferencia do coñecemento xerado polo Proxecto Nós a empresas, administracións públicas e á sociedade en xeral para promover o uso real da lingua galega en contornas dixitais avanzadas.
Ecosistema tecnolóxico en galego sostible e competitivo
A sesión ‘Acceso e uso dos recursos: datos, modelos e ferramentas’ afondou na filosofía aberta do proxecto, xa que tanto os datos coma os modelos lingüísticos e as ferramentas desenvolvidas están dispoñibles para o seu uso libre co fin de impulsar un ecosistema tecnolóxico en galego sostible e competitivo. Outro dos puntos tratados foi a inminente integración do Proxecto Nós en ALIA, unha iniciativa pioneira na Unión Europea que busca crear unha infraestrutura pública de recursos de IA para promover o fomento do castelán e das linguas cooficiais no desenvolvemento e implantación da intelixencia artificial no mundo. A xornada incluíu tamén a presentación das dúas factorías de IA en España. En concreto, a factoría 1HealthAI foi presentada por Lois Orosa, director do CESGA, centro en que residirá o núcleo de infraestruturas e o operativo desta.
O evento contou tamén cunha mesa redonda sobre a importancia do galego no mundo dixital, cunha moi destacada presenza de empresas galegas comprometidas co desenvolvemento tecnolóxico do galego e as tecnoloxías lingüísticas en xeral. Nesta mesa púxose de manifesto a necesaria colaboración entre investigación, empresa e administración para asegurar a presenza da lingua propia nos novos desenvolvementos tecnolóxicos e para fornecer unha industria galega en IA e tecnoloxías lingüísticas. O encontro pechouse coas intervencións da vicerreitora Pilar Bermejo, de Valentín García, secretario xeral da Lingua da Xunta de Galicia; e de Pedro Blanco Lobeiras, delegado do Goberno en Galicia. Todos eles coincidiron en sinalar na súas intervencións o Proxecto Nós como unha peza clave para garantir o futuro do galego na era da intelixencia artificial.
Proxecto Nós
O Proxecto Nós é unha iniciativa para situar o galego canda as linguas máis desenvolvidas no ámbito da tecnoloxía da lingua e a intelixencia artificial. O seu obxectivo principal é xerar os recursos necesarios para facilitar o desenvolvemento de servizos e produtos baseados na tecnoloxía da lingua como asistentes de voz, tradutores automáticos ou axentes conversacionais. En paralelo, o proxecto promove tamén a presenza dixital do galego, mediante a creación dunha ampla variedade de ferramentas e de recursos de alta calidade e de uso libre. Algunhas delas (un tradutor neuronal multilingüe, un recoñecedor de voz que converte fala en texto escrito e unha aplicación de síntese de voz que le en galego) están accesibles de xeito totalmente libre a través do web do proxecto, a disposición de calquera persoa, institución, organización ou empresa que queira desenvolver un produto tecnolóxico, aplicación ou servizo que incorpore a lingua galega. Deste xeito, ademais de garantir os dereitos lingüísticos da comunidade galegofalante no mundo dixital, tamén se contribúe á modernización e dixitalización do ecosistema de empresas galegas e á creación de valor con novos produtos que empreguen o galego.
O Proxecto Nós é unha iniciativa da Xunta de Galicia, que encomendou a súa execución á Universidade de Santiago de Compostela (USC) a través de dúas entidades punteiras de investigación en tecnoloxías da linguaxe e intelixencia artificial: o Instituto da Lingua Galega (ILG) e o Centro Singular de Investigación en Tecnoloxías Intelixentes (CiTIUS). Neste trienio contou co financiamento do Ministerio para la Transformación Digital y de la Función Pública, con fondos da Unión Europea-NextGenerationEU, no marco do proxecto ILENIA.





