Publícase o corpus ParlaMint 3.0 con datos do Parlamento galego

Data: 
mércores, Xullo 5, 2023 - 13:30

Acaba de facerse público o corpus ParlaMint 3.0, en que o ILG e o Proxecto Nós participan coa compilación e etiquetaxe dos datos do Parlamento galego (ParlaMint-ES-GA). ParlaMint é un proxecto que se desenvolve no marco de CLARIN, cuxo obxectivo é a creación dun corpus de sesións parlamentarias multilingües comparables e homologadas.

Os corpus codifícanse de forma uniforme, incluíndo ricos metadatos con información dos locutores (identificador, nome, xénero, partido político...) e das intervencións (data, identificador, rol do locutor...). A codificación segue o esquema TEI-XML de ParlaMint, baseado nas recomendacións Parla-CLARIN (adaptación das Guías TEI). Os corpus tamén contan con anotación lingüística automática seguindo o formato Universal Dependencies e incluíndo NER (Recoñecemento de Entidades Nomeadas).

A versión que vén de publicarse inclúe: