Pescudar nos textos
Tipos de tradución Combinacións lingüísticas Linguas da tradución Coleccións

Que é o Corpus SensoGal?

O Corpus SensoGal (ISLRN: 9653-144-288-768-2) é unha colección aberta de corpus paralelos anotados con equivalencias de tradución a nivel de frase, lematizados e etiquetados semanticamente a nivel léxico con respecto a WordNet 3.0. O Corpus SensoGal foi elaborado polo SLI da Universidade de Vigo a partir dunha selección dos corpus integrantes do Corpus CLUVI e da tradución inglés-galego de 30 textos do Corpus SemCor do inglés, coa finalidade de estudar as posibilidades do procesamento semántico de corpus paralelos na investigación, na didáctica e no desenvolvemento de aplicacións das tecnoloxías da linguaxe.

En conxunto, o Corpus SensoGal ten unha extensión de 35.731.774 palabras (843.276 unidades de tradución) e abrangue traducións en distintas combinacións lingüísticas co galego, español, inglés, francés, portugués, catalán e éuscaro, en seis rexistros ou dominios especializados: ficción, divulgación científica, textos bíblicos, dereito e administración pública, información ao consumo e subtitulación.

O Corpus SemCor paralelo inglés-galego

O Corpus SemCor do inglés é un corpus textual monolingüe anotado semanticamente creado polo equipo de WordNet. Está formado por 360.000 palabras en 352 textos tirados do Corpus Brown. É o maior corpus anotado semanticamente de libre acceso, con 192.639 palabras con significado léxico (nomes, verbos, adxectivos e adverbios) anotadas orixinalmente co seu sentido respecto a WordNet 1.6. Dos 352 textos, só 186 están completamente anotados con categoría gramatical, lema e sentido, e 166 só teñen anotados semanticamente os verbos.

O SemCor do inglés orixinal foi procesado no SLI para lle incorporar novas etiquetas semánticas referidas aos ILI (índices interlingüísticos) do WordNet 3.0 e enlazalas con Galnet, o WordNet do galego. O Corpus SemCor-ILI así reetiquetado pódese consultar a través dunha interface de consulta en http://sli.uvigo.gal/SemCor/. Igualmente, tanto o Corpus SemCor reetiquetado como o mapping utilizado para a súa elaboración, están accesíbeis para descarga en http://sli.uvigo.gal/download/.

O Corpus SemCor paralelo inglés-galego é un corpus en desenvolvemento que se integra na colección do Corpus SensoGal, encamiñado ao aliñamento dos 186 textos completamente anotados do SemCor coas súas traducións ao galego igualmente anotadas. No estado actual, contén a tradución anotada semanticamente de 30 textos, totalizando 2.734 unidades de tradución, con 61.236 palabras en inglés e 62.577 en galego. No conxunto do Corpus SensoGal, o Corpus SemCor inglés-galego constitúe unha sección cuantitativamente pequena. Porén, a súa relevancia radica no feito de tratarse da unica sección procesada con revisión humana completa, presentando por tanto un grao de fiabilidade moi elevado, tanto na lematización coma na etiquetación semántica.

A etiquetación semántica do CLUVI

Coa excepción do Corpus SemCor paralelo inglés-galego, o groso do Corpus SensoGal provén do procesamento lingüístico dunha selección de 12 dos 24 corpus reunidos no Corpus CLUVI. Esta selección de corpus foi lematizada e etiquetada semanticamente mediante a aplicación de diversas utilidades de código aberto fornecidas por FreeLing, IXA pipes e UKB. Estas ferramentas de análise lingüística automática aplican técnicas que posúen unha precisión relativa e, por tanto, inclúen análises incorrectas nos corpus etiquetados que requirirían unha revisión humana.

Infelizmente, non podemos emprender esta revisión no SLI por falta de recursos humanos. Aínda así, pensamos que o Corpus SensoGal, no seu estado actual e malia todas as súas eivas, pode ser un recurso lingüístico interesante para o procesamento da linguaxe e útil como ferramenta de consulta nos ámbitos da lingua e da tradución. Sexa como for, publicámolo coa esperanza de que a súa existencia inspire e anime outros desenvolvementos futuros semellantes con maiores apoios e forza de traballo.

A interface de consulta

Desde maio de 2015, o SLI ofrece a posibilidade de realizar consultas en liña aos corpus paralelos recompilados no Corpus SensoGal no enderezo web http://sli.uvigo.gal/SensoGal/. A interface de consulta permite buscas de palabras, de lemas ou de conceptos, especificando opcionalmente a categoría gramatical, e amosa como resultado as equivalencias interlingüísticas dos termos achados no seu contexto oracional, tal como aparecen nas traducións reais documentadas no corpus e mais na súa versión etiquetada. Así mesmo, o corpus audio-textual LITTERA de textos literarios inglés-español ofrece o acceso as gravacións de son correspondentes ás traducións amosadas como resultado da busca.

Unha nova utiidade da aplicación de consulta do Corpus SensoGal é a consulta simultánea de varios corpus nunha mesma combinación lingüística, orientada á obtención do maior número de resultados para un par de linguas concreto do SensoGal. Esta funcionalidade engadida permite a consulta de coleccións de corpus nas combinacións galego-catalán, galego-español, galego-francés, galego-éuscaro, inglés-galego, inglés-español e éuscaro-español.

No menú Como buscar, accesíbel desde o menú de cabeceira desta aplicación, pódese ver unha descrición polo miúdo de todos os tipos e opcións de busca, así como das opcións de visualización e da información contida nos resultados.