Tecnoloxías e análise dos datos lingüísticos

Microproxecto: METEOGALNET, módulo para desambiguación léxica e a xeración automática de expresións alternativas en galego no ámbito da meteoroloxía.

Grupos que colaboraron: GSI-USC (IP: Alberto Bugarín) e TALG-UVIGO (IP: Xavier Guinovart)

METEOGALNET é un módulo de xeración de expresións alternativas, baseado no GALNET (WordNet do galego) aplicado na creación automática de predicións meteorolóxicas en linguaxe natural, mediante a súa integración coa aplicación GALiWeather, actualmente operativa como servizo público na Web de Meteogalicia.

O microproxecto persegue desenvolver unha nova implementación de GALiWeather que inclúa novos termos ou expresións alternativas baseados en relación de similitude semántica respecto dos utilizados na realización actual.

Dentro do microproxecto realizáronse as tarefas previstas, que consistiron, por parte do equipo GSI-USC na implementación da libraría para a realización lingüística en galego SimpleNLG-GL, a documentación da mesma e a wiki co tutorial de uso. A devandita libraría vai ser descrita nunha publicación internacional de congreso no ano 2018 e difundida como software libre para a súa disposición por parte da comunidade internacional NLG. Con isto, o galego vai ser unha das seis linguas no mundo que dispoña dun recurso de realización lingüística coma este, baseado na versión inglesa orixinal SimpleNLG.

De cara a facilitar a integración coa libraría SimpleNLG-GL, desenvolvemos unha versión Java do Servizo de predición operativa en linguaxe natural GALiWeather. A nova versión, jGALiWeather integrouse plenamente e está a producir prognósticos meteorolóxicos en linguaxe natural totalmente correctos e mesmo mellorados fronte aos da versión actual, tras a revisión do léxico realizada polo equipo TALG-UVIGO de acordo co Coordinador de Predición de Meteogalicia (Dr. Juan Taboada), coa proposta de solucións normativas, e solución de problemas terminolóxicos que foron incorporados na nova versión. Na actualidade estase rematando a integración coa API desenvolvida polo grupo TALG-UVIGO para a produción de textos de predición alternativos, con variantes terminolóxicas con significado similar as actuais.

Adicionalmente ás xa comentadas, o equipo TALG-UVIGO levou a cabo outras tarefas precisas para o correcto desenvolvemento da API citada anteriormente. Así, realizouse a análise do léxico dos textos xerados por GaliWeather e identificación na rede semántica dos sentidos utilizados no contexto real de uso da aplicación. Ampliouse a rede semántica de Galnet a partir do léxico usado por Galiweather, incrementando a presenza de termos específicos de meteoroloxía na base de datos. Documentouse e fíxose accesible a API específica para facilitar as consultas necesarias da rede semántica desde jGaliweather.

Contratacións realizadas

GSI-USC: Contratación da investigadora Andrea Cascallar Fuentes a tempo parcial do 01/07/2017 ao 31/10/2017. Custo total do contrato (en euros): 7.141,17€
TALG-UVIGO: Contratación do investigador Miguel Solla Portela a tempo completo do 01/07/2017 ao 30/09/2017. Custo total do contrato (en euros): 7.141,96€

Non se realizaron gastos noutros conceptos, destinándose todo o importe do microproxecto ás contratacións indicadas anteriormente.

Resultados en forma de tese:

Título: APLICACIÓN DE CONJUNTOS BORROSOS EN SISTEMAS DATA-TO-TEXT. Autor: Alejandro Ramos Soto. Directores: Alberto Bugarín y Senén Barro Ameneiro. 21/12/2016 (GI-1636)

Título: Linguistic Descriptions of Complex Phenomena: Applications with Big Data. Autor: Patricia Conde-Clemente. Directores: Gracian Trivino Barros, Jose María Alonso Moral. 15/05/2017 (GI-1636)

Microproxecto: Análise do Inventario Toponímico da Galicia Medieval (ITGM)

Grupos que participan: FILG (IPs: Francisco Xavier Varela Barreiro, Paulo Martínez Lema), COGRADE (IPs: José A. Taboada González, José R. Ríos Viqueira, David Mera), Pablo Gamallo Otero (CITIUS)

Como resultado do proxecto de elaboración do Inventario Toponímico da Galicia Medieval, ITGM http://ilg.usc.es/itgm/ (desenvolvido no ILG por membros do grupo FILGA dirixidos por Xavier Varela e Paulo Martínez Lema), disponse dun conxunto de documentación galega medieval (tanto notarial coma non-notarial) de varias comarcas e áreas xeográficas galegas que contén toda unha serie de topónimos na forma medieval que está recollida nas fontes. O propósito orixinario do ITGM era pór a disposición dos usuarios este material toponímico que se veu extraendo desta documentación medieval. O volume total de textos foi parcialmente analizado polo grupo de ITGM de maneira manual para identificaren os topónimos nela rexistrados.

Partindo desta situación, os membros do ITGM (FILGA) e os membros de COGRADE propuxeron un microproxecto en que se analice o funcionamento das actuais ferramentas de procesamento da linguaxe natural e das técnicas de aprendizaxe máquina para aplicalas ós problemas que provoca a identificación automática dos topónimos no banco de textos dispoñible no ITGM. Para a realización do microproxecto partirase do estado actual das ferramentas de procesado da linguaxe natural. O seus resultados analizaranse para determinar a precisión e sensibilidade con que se poden identificar os topónimos; para iso tamén se tomará como referencia o traballo manual xa realizado anteriormente. A partir deste punto investigarase se é posible mellorar os resultados utilizando novas técnicas e establecer aquelas que resultan máis eficaces ou prometedoras. Este é un microproxecto EN CURSO. Aínda non presentan resultados en termos de publicacións.

Persoal contratado

Alfonso Xavier Canosa Rodríguez (18/9/2017 – 18/12/2017)

Datas de desenvolmento. xullo 2017-xaneiro 2018

O día 15 de febreiro de 2018 presentáronse aos membros da rede os avances deste microproxecto.

No documento se pode descargar o material do seminario.

Microproxecto: Avaliación de sistemas de recoñecemento en galego – Deseño e recollida de corpus en galego e castelán

Grupos que participan: GTM-UVIGO e FILGA-USC

Antecedentes e obxectivos

É un feito que a tecnoloxía de fala en galego precisa dun pulo para acadar os niveis da tecnoloxía doutros idiomas coma o inglés ou o castelán. Especialmente relevante é o caso do recoñecemento automático de fala. O grupo GTM ten desenvolvido un sistema de recoñecemento en galego que ten prestacións boas para fala lida, pero que precisa de melloras para outro tipo de falas (espontánea, de dominio especializado ou coloquial etc.). Isto púxose xa de manifesto na colaboración co grupo FILGA para o desenvolvemento do CORILGA, ao integrar este recoñecedor como ferramenta de axuda para a etiquetaxe das gravacións.

Cómpre entón realizar unha avaliación sistemática do sistema de recoñecemento que dea un diagnóstico do seu funcionamento con distintos tipos de fala de falantes, e realizar as modificacións necesarias para melloralo. Pódese prever que estas melloras necesitan de material especialmente deseñado para iso e que ademais pode empregarse noutros campos da tecnoloxía da fala. Estamos a falar dun corpus de frases balanceado foneticamente que sexa adquirido dun número importante de falantes (más de 100). Este corpus empregarase para outras tarefas como a da transformación de voz en síntese de fala, detección automática de tipos de falantes (neofalantes, acento, zoa xeográfica, etc.). Será deseñado en galego e castelán.

Actividades realizadas anos 2016-2017

Listaxe das actividades conducente á obtención do obxectivo 1, avaliación do sistema de recoñecemento de fala en galego.
Posta a punto do sistema de recoñecemento de fala en galego do GTM empregando o software GTM e os recursos de fala e texto dos grupos GTM e FILGA
Ampliación do corpus de texto en galego para o adestramento de modelos de linguaxe estatísticos con material da Wikipedia, do DUVI.
Deseño dun protocolo de avaliación baseado en material do CORILGA
Avaliación inicial do sistema de recoñecemento en galego de Google.
Listaxe das actividades conducente á obtención do obxectivo 2, adquisición dun corpus fonético e prosódico do galego e do español de Galicia para estudos de contacto de linguas e de transferencia fonética
Elaboración das especificacións técnicas do corpus.
Inicio dos traballos de deseño dos textos a gravar.
Inicio do deseño da ferramenta de adquisición do corpus.

Resultados

Os resultados están fundamentalmente relacionados coas actividades de anos anteriores que se publicaron en 2016: unha contribucións en revista e dúas en congresos internacionais.

Persoal contratado

Contrato a tempo parcial de Andrés Piñeiro, estudante do Mestrado de Enxeñaría de Telecomunicación da Universidade de Vigo desde 1 de xullo a 31 de outubro de 2017. Previsiblemente volverase a contratar no ano 2018. As actividades a realizar forman parte do seu TFM.

Contrato a tempo parcial de José Manual Dopazo Entenza, doutorando do PD Lingüística da USC, desde o 1 de xullo ao 31 de decembro de 2018. José Manuel Dopazo Entenza impartiu o curso Aprendizaxe para o manexo do programa ELAN de transcrición de textos orais, 7, 9, 14, 16 e 21 de febreiro de 2017 cun total de 10 horas. José Manuel Dopazo Entenza impartiu o curso Aprendizaxe para o manexo do programa ELAN de transcrición de textos orais, 21, 23, 28, 30 de marzo e 4 de abril de 2017 cun total de 10 horas.

Microproxecto: CORILSE 2ª FASE. Resumo actividades anos 2016-2017.

Colaboración entre os grupos GRADES-UVIGO e GTM-UVIGO

CORILSE é o Corpus Informatizado de la Lengua de Signos Española. Está formado por un conxunto de gravacións tomadas de diferentes xéneros de discurso producidos por signantes galegos que viven na cidade de Vigo.

Punto de partida:

Creación dunha interface do corpus accesible via web.
Primeiras probas con vídeos glosados e anotados para información gramatical que forman parte do corpus de LSE que está crecendo.
Base de datos léxica. Os lemas coinciden coas glosas identificadas no corpus (glosas-id).

Actividades xa desenvolvidas

Deseño da nova interface para mostrar o corpus de lingua de signos da Universidade de Vigo. O prototipo está desenvolvido tal e como se deseñara para esta fase (ver imaxe máis abaixo). Permite seleccionar un arquivo do corpus de entre os 16 que están actualmente dispoñibles, visualizar o vídeo, que aparece con subtítulos e, simultaneamente, ver as glosas da man dereita e a man esquerda, así como tamén a tradución. Está en fase de probas, polo que non é aínda de acceso aberto.
Busca de software para a captura da base de datos empregando a kinect.
Busca de software para o recoñecemento de xestos empregando Matlab ou software de distribución pública.

Resultados ano 2016: unha publicación en congreso internacional

Cabeza Pereiro, Carmen; José Mª García-Miguel Gallego; Carmen García Mateo; José Luis Alba Castro (2016): “CORILSE: a Spanish Sign Language Repository for Linguistic Analysis”. LREC 2016 Proceedings, 1402-1407

Microproxecto: Análise cuantitativa de datos lingüísticos: deseño de ferramentas e explotación da información

Colaboración entre os grupos FILGA (USC) e MODESTYA (USC). Investigadores participantes: Xulio Sousa, Rosa Crujeiras Casais, Alberto Rodríguez Casal, Mª José Ginzo Villamayor, Laura Calaza e Silvia Bravo.

O microproxecto ten a finalidade de deseñar técnicas e ferramentas de análise cuantitativo para aplicar á investigación en lingüística. Os datos lingüísticos que se analizan nesta fase proveñen de proxectos de análise da variación lingüística e de investigacións en onomástica. No ámbito dos estudos variacionistas estase a traballar con información de distintos proxectos de xeografía lingüística (ALPI e ALGa) e tamén con datos de investigacións en dialectoloxía perceptiva. Con respecto á información onomástica, comezouse coa análise da distribución espacial de apelidos en Galicia e Asturias, aínda que o obxectivo final será estender a análise a toda España. A esta altura xa se conta coas bases de datos onomásticas de todas as comunidades españolas e xa se realizaron as primeiras análises en Galicia e Asturias.

O día 15 de febreiro presentáronse aos membros da rede os avances deste microproxecto.

No documento se pode descargar o material do seminario da parte de onomástica e no documento os da parte relacionada cos estudos dedialectoloxía perceptiva.

Logros no bienio 2017 - 2018

Microproxecto: METEOGALNET, módulo para desambiguación léxica e a xeración automática de expresións alternativas en galego no ámbito da meteoroloxía.

Contratacións realizadas

Resultados en forma de tese:

Microproxecto: Análise do Inventario Toponímico da Galicia Medieval (ITGM)

Persoal contratado

Microproxecto: Avaliación de sistemas de recoñecemento en galego – Deseño e recollida de corpus en galego e castelán

Antecedentes e obxectivos

Actividades realizadas anos 2016-2017

Resultados

Persoal contratado

Microproxecto: CORILSE 2ª FASE. Resumo actividades anos 2016-2017.

Punto de partida:

Actividades xa desenvolvidas

Resultados ano 2016: unha publicación en congreso internacional

Microproxecto: Análise cuantitativa de datos lingüísticos: deseño de ferramentas e explotación da información