About the CLUVI Corpus

Version
3.4

ISLRN
910-993-402-072-9

Project management, web design and development
Xavier Gómez Guinovart (SLI-UVIGO)

URL
https://ilg.usc.gal/cluvi/

Resource Type
Parallel Corpus

Size
49 million words

Languages
Galician (12 million words), Spanish, English, French, Portuguese, Catalan, Italian, Basque, German, Latin and Chinese

Corpus CLUVI sections
BIBLOGAL Corpus of Latin-Galician-Brazilian Portuguese-European Portuguese-Catalan-French-Italian-Spanish-English-German-Basque-Simplified Chinese-Traditional Chinese biblical texts (7,481,611 words)
LEGA Corpus of Galician-Spanish legal texts (6,582,415 words)
UNESCO Corpus of English-Galician-French-Spanish scientific-technical divulgation (3,724,620 words)
LOGALIZA Corpus of English-Galician software localization (3,706,242 words)
CONSUMER Corpus of Spanish-Galician-Catalan-Basque consumer information (5,586,431 words)
TECTRA Corpus of English-Galician literary texts (2,465,154 words)
FEGA Corpus of French-Galician literary texts (1,863,959 words)
DEGA Corpus of German-Galician literary texts (366,038 words)
GALEA Corpus of Galician-Spanish literary texts (162,795 words)
PEGA Corpus of Portuguese-Galician literary texts (68,431 words)
EGAL Corpus of Galician-Spanish economy texts (718,642 words)
TREGA Corpus of Spanish-Galician tourism texts (325,389 words)
VEIGA Multimedia Corpus of English-Galician film subtitling (797,901 words)
XÍNGDÒNG Corpus of Galician-Chinese film subtitling (344,427 words)
LEGE-BI Corpus of Basque-Spanish legal texts (2,384,053 words)
LOCALIZA Corpus of English-Spanish software localization (4,992,133 words)
TECTES Corpus of English-Spanish literary texts (2,108,141 words)
LITTERA Audio-Textual Corpus of English-Spanish literary texts (1,968,676 words)
PALOP Corpus of Portuguese-Spanish postcolonial literature (566,590 words)
TURIGAL Corpus of Portuguese-English tourism texts (1,285,764 words)
TECTON Corpus of English-Portuguese literary texts (924,425 words)
SCOPE Corpus of English-Spanish economy texts (1,151,544 words)
BETA Corpus of English-Spanish television series subtitling (820,393 words)

Contributors
Adonay Moreira
Alba Vidal Fernández
Alexandre Insua Moreira
Ana Álvarez López
Andras Farkas
Andrés Guerrero
Anxeles Torres Padín
Anxo Otero Ruiz
Asier Alcázar
Elena Sacau Fontenla
Eva Díaz Rodríguez
Jacobo Currais
Javier Peleteiro Nieto
Jesús Meiriño-Gómez
Jörg Tiedemann
Lorena Meizoso Allegue
Luis Castro-Rial
Luiza Garcia
Magali Meijueiro
Mar Villar Zamuz
Melisa González Núñez
Mercedes Rodríguez García
Michael Lang
Nerea Bentancor González
Patricia Sotelo Dios
Paulo Malvar Fernández
Paz Orois Fernández
Pierre Lison
Raquel Uzal
Rebeca Lema
Rocío Abelleira
Santiago García
Santiago González Lopo
Susana López Fernández
Tamara Varela
Xusto Rodríguez Río

Special thanks to:
Alberto Álvarez Lugrís

Publications

Lang, Michael, Xavier Gómez Guinovart (2021): Developing and implementing an English-Spanish literary parallel audio-textual corpus for data-driven ESL learning. DELTA: Documentação de Estudos em Lingüística Teórica e Aplicada, 37:1, 1-30 (ISSN 0102-4450). DOI: https://doi.org/10.1590/1678-460x2021370106

Gómez Guinovart, Xavier (2019): Enriching parallel corpora with multimedia and lexical semantics: From the CLUVI Corpus to WordNet and SemCor. In Irene Doval e M. Teresa Sánchez Nieto (eds.), Parallel Corpora for Contrastive and Translation Studies: New resources and applications (ISBN 978-90-272-0234-5), John Benjamins, Amsterdam, pp. 141-158. DOI: https://doi.org/10.1075/scl.90.09gom

Simões, Alberto, Xavier Gómez Guinovart (2018): Extending the Galician Wordnet Using a Multilingual Bible Through Lexical Alignment and Semantic Annotation. Pedro Rangel Henriques, José Paulo Leal, António Menezes Leitão, Xavier Gómez Guinovart (eds.): 7th Symposium on Languages, Applications and Technologies (SLATE 2018) (ISBN: 978-3-95977-072-9), Schloss Dagstuhl/Leibniz-Zentrum fuer Informatik, Dagstuhl (Alemaña), pp. 14:1-14:13. DOI: http://dx.doi.org/10.4230/OASIcs.SLATE.2018.14

Gómez Guinovart, Xavier (2017): Recursos integrados da lingua galega para a investigación lingüística. Marta Negro Romero, Rosario Álvarez, Eduardo Moscoso Mato (eds.): Gallæcia. Estudos de lingüística portuguesa e galega (ISBN 978-84-16954-41-4), Universidade de Santiago de Compostela, Santiago de Compostela, pp. 1045-1056. DOI: http://dx.doi.org/10.15304/cc.2017.1080.61

Sotelo Dios, Patricia (2016): Adquisición de competencias en traducción audiovisual mediante un corpus multimedia. Daniel Gallego Hernández (ed.), New Insigths into Corpora and Translation (ISBN: 978-1-4438-8679-6), Cambridge Scholars Publishing, Newcastle upon Tyne, pp. 1-16.

Álvarez Lugrís, Alberto & Xavier Gómez Guinovart (2014): Lexicografía bilingüe práctica basada en corpus: planificación y elaboración del Dicionario Moderno Inglés-Galego. Domínguez Vázquez, María José, Xavier Gómez Guinovart & Carlos Valcárcel Riveiro (eds.), Lexicografía de las lenguas románicas: Aproximaciones a la lexicografía moderna y contrastiva. Berlin / Boston: De Gruyter Mouton, pp. 31-48 (ISBN 978-3-11-031033-7). DOI: http://dx.doi.org/10.1515/9783110310337.31

Gómez Guinovart, Xavier (coord.), Alberto Álvarez Lugrís, Eva Díaz Rodríguez (2012): Dicionario moderno inglés-galego. 2.0 Editora: Ames (ISBN 978-84-938683-8-3).

Sotelo Dios, Patricia, Xavier Gómez Guinovart (2012): A Multimedia Parallel Corpus of English-Galician Film Subtitling. A. Simões, R. Queirós, D. da Cruz (eds.), 1st Symposium on Languages, Applications and Technologies, pp. 255-266. OASIcs: Open Access Series in Informatics, vol. 21. Dagstuhl Publishing: Saarbrücken (ISBN 978-3-939897-40-8).

Gómez Guinovart, Xavier (2012): A Hybrid Corpus-Based Approach to Bilingual Terminology Extraction. I. Moskowich-Spiegel Fandiño, B. Crespo (eds.). Encoding the Past, Decoding The Future: Corpora in the 21st Century. Cambridge Scholar Publishing: Newcastle upon Tyne, pp. 147-175 (ISBN 1-4438-3581-1).

Sotelo Dios, Patricia (2011): Corpus multimedia VEIGA inglés-galego de subtitulación cinematográfica. Linguamática (ISSN 1647-0818), 3.2, pp. 99-106.

Sotelo Dios, Patricia (2011): Using a Multimedia Parallel Corpus to Investigate English-Galician Subtitling. Bente Maegaard (ed.), Proceedings of the SDH 2011 Conference: Supporting Digital Humanities, Copenhague.

Moreira, Adonay (2011): The Translator as Cultural Mediator: a corpus-based study of omissions and additions in translations of tourism brochures. The Journal of Cultural Mediation, vol. 1, pp. 86-95.

Moreira, Adonay (2011): Turigal: compilation of a parallel corpus for bilingual terminology extraction. Carrió, M. L. & Candel, M. A., Actas del III Congreso Internacional de Lingüística de Corpus. Las tecnologías de la información y las comunicaciones: presente y futuro en el análisis de corpus. Valencia: Universitat Politècnica de València, pp. 33-42.

Moreira, Adonay (2011): A translation-oriented tourism term bank. Tourism & Management Studies, vol. 2, Special Issue: Book of Proceedings of the International Conference on Tourism & Management Studies, pp. 1066-1068 (ISSN 1646-2408).

Rodríguez García, Mercedes (2011): Elaboración dun glosario plurilingüe inglés-galego-español especializado en informática a partir de corpus paralelos. Traballo de Fin de Máster dirixido por Xavier Gómez Guinovart e defendido en xullo de 2011 no Máster en Tradución e Paratradución da Universidade de Vigo coa cualificación de sobresaliente.

Gómez Guinovart, Xavier & Alberto Simões (2010): Translation Dictionaries Triangulation. Proceedings of FALA2010: VI Jornadas en Tecnología del Habla & II Iberian SLTech, Universidade de Vigo, Vigo.

Moreira, Adonay (2010): Terminologia e Tradução: criação de uma base de dados terminológica do turismo baseada num corpus paralelo português-inglês. Tese de doutoramento dirixida por Xavier Gómez Guinovart e defendida o 18 de outubro de 2010 no Departamento de Tradución e Lingüística da Universidade de Vigo coa cualificación de sobresaliente cum laude.

Gómez Guinovart, Xavier & Alberto Simões (2009): Parallel corpus-based bilingual terminology extraction. Proceedings of the 8th International Conference on Terminology and Artificial Intelligence, IRIT (Institut de recherche en Informatique de Toulouse), Université Paul Sabatier, Toulouse.

Gómez Guinovart, Xavier (2009): Terminología aplicada basada en corpus. Punto y coma, 115-S, pp. 29-33.

Gómez Guinovart, Xavier & Antón Santamarina (2009): RILG: Recursos Integrados da Lingua Galega. Procesamiento del Lenguaje Natural, 43, pp. 375-376.

Simões, Alberto & Xavier Gómez Guinovart (2009): Terminology extraction from English-Portuguese and English-Galician parallel corpora based on probabilistic translation dictionaries and bilingual syntactic patterns. António Teixeira, Miguel Sales Dias & Daniela Braga (eds.), Proceedings of the Iberian SLTech 2009 - I Joint SIG-IL/Microsoft Workshop on Speech and Language Technologies for Iberian Languages. Designeed, Porto Salvo (Portugal), pp. 13-16.

Gómez Guinovart, Xavier, Eva Díaz Rodríguez & Alberto Álvarez Lugrís (2008): Aplicacións da lexicografía bilingüe baseada en córpora na elaboración do Dicionario CLUVI inglés-galego. Viceversa: Revista Galega de Traducción, 14, pp. 71-87.

Alberto Álvarez Lugrís (2008): O Dicionario CLUVI inglés-galego. Longa Lingua, 20.

Crespo Bastos, Ana, Xosé María Gómez Clemente, Xavier Gómez Guinovart & Susana López Fernández (2008): XML-based Extraction of Terminological Information from Corpora. José Carlos Ramalho, João Correia Lopes & Salvador Abreu (eds.), Actas da 6ª Conferência Nacional XATA2008.XML, Aplicações e Tecnologias Associadas. 14-15 Febreiro 2008, Universidade de Évora (Portugal), pp. 28-39.

Gómez Guinovart, Xavier (2008): A investigación en lexicografía e terminoloxía no Corpus Lingüístico da Universidade de Vigo (CLUVI) e no Corpus Técnico do Galego (CTG). González Seoane, Ernesto, Antón Santamarina & Xavier Varela Barreiro (eds.), A lexicografía galega moderna. Recursos e perspectivas. Santiago de Compostela: Consello da Cultura Galega / Instituto da Lingua Galega, pp. 209-228.

Girju, Roxana (2007): Improving the Interpretation of Noun Phrases with Cross-linguistic Information. Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, pp. 568-575. Prague, Czech Republic, June 2007.

Girju, Roxana (2007): Experiments with an Annotation Scheme for a Knowledge-rich Noun Phrase Interpretation System. Proceedings of the Linguistic Annotation Workshop, pp. 168-175. Prague, June 2007.

Malvar Fernández, Paulo (2007): Aproximação à linguística de corpus como metodologia de base empírica. Compilação e anotação do Corpus Paralelo PALOP (português-espanhol) de Narrativa Pós-colonial. Agália: Publicaçom internacional da Associaçom Galega da Lingua, 89-90, pp. 9-80.

Gómez Guinovart, Xavier & Ánxeles Torres Padín (2006): Extracción dun vocabulario xurídico-administrativo galego-castelán a partir dun corpus paralelo. M. Teresa Cabré, Carme Bach & Jaume Martí (eds.), Terminología y derecho: la complejidad de la comunicación multilingüe, Universitat Pompeu Fabra (Institut Universitari de Lingüística Aplicada), Barcelona, pp. 175-188.

Gómez Guinovart, Xavier & Elena Sacau Fontenla (2005): Técnicas para o desenvolvemento de dicionarios de tradución a partir de córpora aplicadas na xeración do Dicionario CLUVI Inglés-Galego. Viceversa: Revista Galega de Traducción, 11, pp. 159-171.

Gómez Guinovart, Xavier & Ánxeles Torres Padín (2005): Metodoloxía e ferramentas do traballo terminolóxico baseado en corpus: do Corpus Lingüístico da Universidade de Vigo ao Vocabulario xurídico-administrativo galego-castelán. Viceversa: Revista Galega de Traducción, 11, pp. 141-157.

Gómez Guinovart, Xavier & Elena Sacau Fontenla (2004): Parallel corpora for the Galician language: building and processing of the CLUVI (Linguistic Corpus of the University of Vigo). Teresa Lino et al. (ed.), Proceedings of the 4th International Conference on Language Resources and Evaluation, LREC 2004, pp. 1179-1182. Lisboa (Portugal), 26-28 maio 2004.

Gómez Guinovart, Xavier & Elena Sacau Fontenla (2007): Técnicas de procesamento lingüístico-computacional de corpus paralelos no CLUVI (Corpus Linguístico da Universidade de Vigo). VV.AA., Actas del VI Congreso de Lingüística General (Santiago de Compostela, 3-7 de mayo de 2004), Arco Libros, Madrid, 2007, pp. 855-864.

Simões, Alberto; Almeida, José João & Gómez Guinovart, Xavier (2004): Memórias de Tradução Distribuídas. Ramalho, José Carlos & Simões, Alberto (eds.), XATA2004 - XML, Aplicações e Tecnologias Associadas, Universidade do Porto, Porto (Portugal), pp. 59-68.

Gómez Guinovart, Xavier & Elena Sacau Fontenla (2004): Métodos de optimización de la extracción de léxico bilingüe a partir de corpus paralelos. Procesamiento del Lenguaje Natural, 33, pp. 133-140.

Simões, Alberto; Gómez Guinovart, Xavier & Almeida, José João (2004): Distributed Translation Memories implementation using WebServices. Procesamiento del Lenguaje Natural, 33, pp. 89-94.

Aguirre Moreno, José Luis; Álvarez Lugrís, Alberto & Gómez Guinovart, Xavier (2003): Aplicación do etiquetario morfosintáctico do SLI ó corpus de traduccións TECTRA. Viceversa: Revista Galega de Traducción, 7-8, 2002-2003, pp. 189-212.

Aguirre Moreno, José Luis; Alberto Álvarez Lugrís; Iago Bragado Trigo; Luz Castro Pena; Xavier Gómez Guinovart; Santiago González Lopo; Angel López López; José Ramom Pichel Campos; Elena Sacau Fontenla & Lara Santos Suárez (2003): Alinhamento e etiquetagem de corpora paralelos no CLUVI (Corpus Linguístico da Universidade de Vigo). Almeida, J.J. (ed.), Actas do Workshop CP3A 2003, Corpora Paralelos: Aplicações e Algoritmos Associados, pp. 33-47. Universidade do Minho, Braga (Portugal).