GALEGO | ENGLISH | ESPAÑOL
 

SOBRE EL CORPUS

 
CORTEGAL es un corpus conformado por 1000 textos manuscritos redactados en el año 2017 por estudiantes de Galicia en el marco de la prueba de acceso a la universidad denominada EBAU, "Evaluación del Bachillerato para el acceso a la Universidad". Más concretamente, los textos corresponden a la prueba de comentario que el alumnado debe realizar en el examen de lengua gallega y literatura. En este examen se solicita la redacción de un texto de carácter argumentativo, de entre 200 y 250 palabras, sobre un tema determinado, vinculado con un texto previo. 
 
Las redacciones, proporcionadas por la Comisión Interuniversitaria de Galicia (CIUG), corresponden tanto a la convocatoria de junio como a la de septiembre del curso 2016-2017. Se presentaron al examen un total de 8669 estudiantes en junio y 1197 en septiembre, de tal modo que la muestra de CORTEGAL supone un 9,87% del total de exámenes presentados. En cada una de estas convocatorias se proponen dos modelos de examen diferentes de los que el estudantado debe escoger uno. El corpus ofrece redacciones correspondientes a las cuatro opciones posibles para la pregunta de comentario, que son las que se indican a continuación:
 

Junio 2017

Opción A (texto inicial de Fran Alonso en Dorna 27, 2001)

En los últimos años la gastronomía y la cocina obtuvieron mucha popularidad. Redacta un texto exponiendo tu opinión sobre este fenómeno: sus causas, lo que tiene de moda pasajera o de cambio cultural más duradero...

Opción B (texto inicial de J. Luís Sucasas en Vieiros, 2009)

Redacta un texto sobre la importancia que tienen el consumo y la producción (o el consumismo y la productividad) en nuestro modo de vida actual.

Septiembre 2017

Opción A (texto inicial de Xavier Quiroga de Zapatillas rotas, 2014)

Expón, de manera argumentada, tu opinión personal sobre el problema que refleja el texto y, en general, sobre este tipo de conflictos familiares entre padres e hijos adolescentes.

Opción B (texto inicial de Mercedes Queixas, en Palavra Comum, 09/10/2015)

La autora se muestra crítica con el hecho de que la infancia y la juventud sueñe con ser futbolista o modelo muy mayoritariamente (línea 10). Redacta un texto exponiendo de manera argumentada tu acuerdo o desacuerdo con su punto de vista.

 

Los centros educativos a los que pertenece el alumnado que realiza las pruebas EBAU están asignados a 26 Comisiones Delegadas (en adelante CD), de tal manera que cada CD abarca una zona geográfica amplia que recoge centros tanto públicos como privados y con alumnado de origen diverso (urbano, periurbano, villa o rural). El listado de CD con los centros educativos asignados en el curso 2016-2017 puede consultarse en el documento Centros de ensino asociados ás comisións delegadas das probas ABAU (curso 2016-2017). El número de textos de la muestra de CORTEGAL es proporcional a la cifra total de exámenes por CD y convocatoria (junio y septiembre), con dos puntualizaciones: por un lado, se eliminaron los 29 exámenes correspondientes a la CD 25, que recoge pruebas de alumnado con necesidades específicas procedente de toda Galicia y no de una zona geográficamente restringida; por otro lado, aunque la distribución real de exámenes entre junio y septiembre es de 87,9%-12,1%, en la muestra de CORTEGAL la distribución se mudó ligeramente (89,8%-10,2%), para reducir el peso del alumnado que realizó el examen tanto en junio como en septiembre (al suspender en la primera convocatoria). La distribución exacta de exámenes por convocatoria y temática en la muestra de CORTEGAL es la que se ofrece en la Tabla 1:

 

Convocatoria

Tema

Número de textos de la muestra

Porcentaje sobre el total de textos

Junio

La gastronomía

449

44,9%

Consumo y producción

449

44,9%

Total junio

 

898

89,8%

Septiembre

Conflictos familiares

51

5,1%

Los referentes de la juventud

51

5,1%

Total septiembre

 

102

10,2%

Total

 

1000

100%

Táboa 1. Distribución de exámenes por convocatoria y temática en la muestra de CORTEGAL

 

Los textos de CORTEGAL están transcritos, tokenizados y anotados en la plataforma TEITOK (puede consultarse el manual técnico de transcripción). Con respecto a las anotaciones, es necesario señalar que  las formas no estándares escritas por el alumnado fueron estandarizadas y codificadas en seis niveles lingüísticos: ortográfico, morfológico, léxico, gramatical (sintáctico), semántico y discursivo. Los códigos asignados indican el tipo de desviación del estándar y en algunos casos también la fuente de la divergencia (analogía, transferencia del español...). Unos pocos códigos, que afectan o que pueden afectar a secuencias de palabras (por ejemplo, el que identifica los enunciados excesivamente complejos), se anotan mediante un sistema diferente al empleado en los restantes casos (anotaciones multipalabra, que se asignan mediante el sistema stand-off). En el documento Códigos y etiquetas EAGLES empleados en la anotación de los textos en CORTEGAL, Corpus de textos galegos escritos por estudantes no ámbito académicoí pueden consultarse los valores de los diferentes códigos y aquí  un manual más detallado con los criterios de estandarización y de asignación de tales códigos.  


CORTEGAL está lematizado automáticamente mediante Freeling, que le asigna a la forma léxica estándar lema y categoría gramatical (en este último caso con etiquetas EAGLES, cuyo valor puede consultarse en el documento ya citado Códigos y etiquetas EAGLES empleados en la anotación de los textos en CORTEGAL, Corpus de textos galegos escritos por estudantes no ámbito académico). Un aspecto metodológico importante de CORTEGAL es la asignación manual, en la mayor parte de las formas estandarizadas lexicamente, de un segundo lema, llamado lema original y, en unas pocas de estas formas, de una segunda categoría gramatical, denominada clase gramatical original. Así, la forma platos recibe dos lemas: el lema estándar plato, asignado automáticamente mediante FreeLing, y el lema original plato, asignado manualmente. El lema original es la forma de cita que representa la voz escrita por el estudiante (una vez estandarizada, si es el caso, ortográfica y morfologicamente), así como cualquier otra variante flexiva que pueda haber en el corpus. La categoría gramatical original se introduce también manualmente cuando existe alguna diferencia entre la clase o subclase de palabras de la forma escrita por el/la estudiante y de la forma estandarizada del nivel léxico. El ejemplo más claro es el de las voces etiquetadas con L_gen_su, en que se produce la asignación de un género no estándar a determinadas palabras. De este modo, la palabra leite en la secuencia «a leite» tiene atribuida como clase de palabra estándar la etiqueta NCMS000 (sustantivo común masculino singular), pero como clase de palabra original NCFS000 (sustantivo común femenino singular).

Finalmente, fueron también anotados los conectores que tienen como función la vinculación entre enunciados (excluyendo vínculos temporales relativos a la ordenación cronológica de los hechos en la realidad y vínculos intraoracionales). Los conectores textuales fueron clasificados en 13 grupos de acuerdo con el valor que proporcionan y que puede ser consultado en el documento Códigos y etiquetas EAGLES empleados en la anotación de los textos en CORTEGAL, Corpus de textos galegos escritos por estudantes no ámbito académico). 

Con respecto a la visualización de los textos, estos pueden ser consultados en varias capas: en la transcripción completa, que incluye las tachaduras realizadas por las/los estudantes (las formas añadidas a posteriori, por ejemplo entre líneas o sobre el texto tachado, se destacan en rojo); en la versión final de la/del estudiante, en que se suprimen las formas tachadas; y en las seis capas de estandarización arriba mencionadas. Las estandarizaciones hechas en cada nivel se destácan mediante diferentes colores, pero para eso la opción "Colores" tiene que estar activada. Las estandarizaciones ortográficas figuran en lila, las morfológicas en naranja, las léxicas en verde, las gramaticales en salmón, las semánticas en azul  y las discursivas en fucsia.