Información sobre o Corpus SensoGal

Versión
2.0

ISLRN
653-144-288-768-2

Dirección, programación e deseño
Xavier Gómez Guinovart (SLI-UVIGO)

URL
http://sli.uvigo.gal/SensoGal/

Tipo de recurso
Corpus paralelo lematizado e semanticamente etiquetado

Extensión
35.731.774 palabras (843.276 unidades de tradución)

Linguas
Galego, español, inglés, francés, portugués, catalán e éuscaro

Seccións do Corpus SensoGal
Corpus SEMCOR inglés-galego (123.813 palabras)
Corpus BIBLOGAL4C de textos bíblicos galego-catalán-español-éuscaro (2.591.360 palabras)
Corpus BIBLOGAL4P de textos bíblicos galego-portugués de Portugal-francés-inglés (2.798.904 palabras)
Corpus xurídico LEGA galego-español (6.582.415 palabras)
Corpus UNESCO inglés-galego-francés-español de divulgación científica (3.724.620 palabras)
Corpus CONSUMER español-galego-catalán-euskara de información sobre consumo (5.586.431 palabras)
Corpus literario TECTRA inglés-galego (2.465.154 palabras)
Corpus literario FEGA francés-galego (1.863.959 palabras)
Corpus VEIGA de subtitulación de películas inglés-galego (294.714 palabras)
Corpus xurídico LEGE-BI euskara-español (2.384.053 palabras)
Corpus literario TECTES inglés-español (3.602.857 palabras)
Corpus audio-textual LITTERA literario inglés-español (1.968.676 palabras)
Corpus literario TECTON inglés-portugués (924.425 palabras)
Corpus BETA de subtitulación de películas inglés-español (820.393 palabras)

Coleccións de corpus SensoGal
Colección SENSOGAL galego-catalán: Corpus CONSUMER e BIBLOGAL4C (3.997.312 palabras)
Colección SENSOGAL galego-español: Corpus CONSUMER, UNESCO, LEGA e BIBLOGAL4C (12.827.373 palabras)
Colección SENSOGAL galego-francés: Corpus FEGA, UNESCO e BIBLOGAL4P (5.075.023 palabras)
Colección SENSOGAL galego-éuscaro: Corpus CONSUMER e BIBLOGAL4C (3.610.874 palabras)
Colección SENSOGAL inglés-galego: Corpus SEMCOR, TECTRA, VEIGA, UNESCO e BIBLOGAL4P (6.130.433 palabras)
Colección SENSOGAL inglés-español: Corpus UNESCO, TECTES e BETA (6.313.033 palabras)
Colección SENSOGAL éuscaro-español: Corpus CONSUMER, LEGE-BI e BIBLOGAL4C (6.564.532 palabras)

Colaboracións
Susana Brandariz (traducións ao galego dos textos en inglés do Corpus SEMCOR inglés-galego)
Miguel Anxo Solla Portela (deseño do proxecto e desenvolvemento informático)
Michael Lang (deseño do proxecto e localización da interface en inglés)

Publicacións

Gómez Guinovart, Xavier e Miguel Anxo Solla Portela (2020): Construction of a WordNet-based multilingual lexical ontology for Galician. En María José Domínguez Vázquez, Mónica Mirazo Balsa e Carlos Valcárcel Riveiro (eds.): Studies on Multilingual Lexicography (ISBN: 978-3-11-060467-2, ISSN: 0175-9264), De Gruyter, Berlin & Boston, pp. 179-196. DOI: https://doi.org/10.1515/9783110607659

Gómez Guinovart, Xavier (2019): Enriching parallel corpora with multimedia and lexical semantics: From the CLUVI Corpus to WordNet and SemCor. En Irene Doval e M. Teresa Sánchez Nieto (eds.), Parallel Corpora for Contrastive and Translation Studies: New resources and applications (ISBN 978-90-272-0234-5), John Benjamins, Amsterdam, pp. 141-158. DOI: https://doi.org/10.1075/scl.90.09gom

Gómez Guinovart, Xavier e Miguel Anxo Solla Portela (2018): Building the Galician wordnet: methods and applications. En Language Resources and Evaluation, 52:1, 317-339 (ISSN 1574-020X). DOI: http://dx.doi.org/10.1007/s10579-017-9408-5 (ou versión completa só de lectura)

Simões, Alberto e Xavier Gómez Guinovart (2018): Extending the Galician Wordnet Using a Multilingual Bible Through Lexical Alignment and Semantic Annotation. Pedro Rangel Henriques, José Paulo Leal, António Menezes Leitão e Xavier Gómez Guinovart (eds.): 7th Symposium on Languages, Applications and Technologies (SLATE 2018) (ISBN: 978-3-95977-072-9), Schloss Dagstuhl/Leibniz-Zentrum fuer Informatik, Dagstuhl (Alemaña), pp. 14:1-14:13. DOI: http://dx.doi.org/10.4230/OASIcs.SLATE.2018.14

Solla Portela, Miguel Anxo e Xavier Gómez Guinovart (2017): Diseño y elaboración del corpus SemCor del gallego anotado semánticamente con WordNet 3.0. En Procesamiento del Lenguaje Natural, 59, 137-140 (ISSN 1135-5948).


Composición do Corpus SensoGal
Na táboa recóllense os datos cuantitativos das seccións do Corpus Sensogal relativos a unidades de tradución (UT) por corpus, palabras por corpus e palabras por lingua dentro de cada corpus.

UTPalabrasESGLENEUFRCAPT
Corpus SEMCOR inglés-galego2734123813 6257761236    
Corpus BIBLOGAL4C de textos bíblicos galego-catalán-español-éuscaro312792591360706125656998 505043 723194 
Corpus BIBLOGAL4P de textos bíblicos galego-portugués de Portugal-francés-inglés312792798904 656998759824 719229 662853
Corpus xurídico-administrativo LEGA galego-español145387658241534251263157289     
Corpus UNESCO de divulgación científico-técnica inglés-galego-francés-español479053724620962085902232927698 932605  
Corpus CONSUMER de información sobre consumo español-galego-catalán-éuscaro89780558643117689981248520 1200313 1368600 
Corpus literario TECTRA inglés-galego852922465154 12119021253252    
Corpus literario FEGA francés-galego505631863959 898433  965526  
Corpus VEIGA de subtitulación de películas inglés-galego27837294714 126805167909    
Corpus xurídico-administrativo LEGE-BI éuscaro-español8254923840531402521  981532   
Corpus literario TECTES inglés-español9019436028571756017 1846840    
Corpus audio-textual LITTERA literario inglés-español635081968676985058 983618    
Corpus literario TECTON inglés-portugués35726924425  470365   454060
Corpus BETA de subtitulación de series televisivas inglés-español59243820393376780 443613    
Total no Corpus Sensogal8432763573177411382710892175469143552686888261736020917941116913