GALEGO | ENGLISH | ESPAÑOL

 

SOBRE O CORPUS

 

CORTEGAL é un corpus conformado por 1000 textos manuscritos redactados no ano 2017 por estudantes de Galicia no marco da proba de acceso á universidade denominada ABAU, “Avaliación do Bacharelato para o acceso á Universidade”. Máis concretamente, os textos corresponden á proba de comentario que o alumnado debe realizar no exame de lingua galega e literatura. Neste exame solicítase a redacción dun texto de carácter argumentativo, de entre 200 e 250 palabras, sobre un tema determinado, vinculado cun texto previo. As redaccións, proporcionadas pola Comisión Interuniversitaria de Galicia (CIUG), corresponden tanto á convocatoria de xuño como á de setembro do curso 2016-2017. Presentáronse ao exame un total de 8669 estudantes en xuño e 1197 en setembro, de tal modo que a mostra de CORTEGAL supón un 9,87% do total de exames presentados.

En cada unha destas convocatorias propóñense dous modelos de exame diferentes dos que o estudantado debe escoller un. O corpus ofrece redaccións correspondentes ás catro opcións posibles para a pregunta de comentario, que son as que se indican a seguir:

Xuño 2017

Opción A (texto inicial de Fran Alonso en Dorna 27, 2001)

Nos últimos anos a gastronomía e a cociña acadaron moita popularidade. Redacta un texto expoñendo a túa opinión sobre este fenómeno: as súas causas, o que ten de moda pasaxeira ou de cambio cultural máis duradeiro...

Opción B (texto inicial de J. Luís Sucasas en Vieiros, 2009)

Redacta un texto sobre a importancia que teñen o consumo e a produción (ou o consumismo e a produtividade) no noso modo de vida actual.

Setembro 2017

Opción A (texto inicial de Xavier Quiroga de Zapatillas rotas, 2014)

Expón, de maneira argumentada, a túa opinión persoal sobre o problema que reflicte o texto e, en xeral, sobre este tipo de conflitos familiares entre pais e fillos adolescentes.

Opción B (texto inicial de Mercedes Queixas, en Palavra Comum, 09/10/2015)

A autora móstrase crítica co feito de que a infancia e a mocidade soñe con ser futbolista ou modelo moi maioritariamente (liña 10). Redacta un texto expoñendo de maneira argumentada o teu acordo ou desacordo co seu punto de vista.

 

Os centros educativos aos que pertence o alumnado que realiza as probas ABAU están asignados a 26 Comisións Delegadas (en diante CD), de tal xeito que cada CD abrangue unha zona xeográfica ampla que recolle centros tanto públicos como privados e con alumnado de procedencia diversa (urbana, periurbana, vila ou rural). A listaxe de CD cos centros educativos asignados no curso 2016-2017 pode consultarse no documento Centros de ensino asociados ás comisións delegadas das probas ABAU (curso 2016-2017). O número de textos da mostra de CORTEGAL é proporcional á cifra total de exames por CD e convocatoria (xuño e setembro), con dúas puntualizacións: por un lado, elimináronse os 29 exames correspondentes á CD 25, que recolle probas de alumnado con necesidades específicas procedente de toda Galicia e non dunha zona xeograficamente restrinxida; por outro lado, aínda que a distribución real de exames entre xuño e setembro é de 87,9%-12,1%, na mostra de CORTEGAL a distribución mudouse lixeiramente (89,8%-10,2%), para reducir o peso do alumnado que realizou o exame tanto en xuño como en setembro (ao suspender na primeira convocatoria). A distribución exacta de exames por convocatoria e temática na mostra de CORTEGAL é a que se ofrece na Táboa 1:

 

Convocatoria

Tema

Número de textos da mostra

Porcentaxe sobre o total de textos

Xuño

A gastronomía

449

44,9%

Consumo e produción

449

44,9%

Total xuño

 

898

89,8%

Setembro

Conflitos familiares

51

5,1%

Os referentes da mocidade

51

5,1%

Total setembro

 

102

10,2%

Total

 

1000

100%

Táboa 1. Distribución de exames por convocatoria e temática na mostra de CORTEGAL

 

Os textos de CORTEGAL están transcritos, tokenizados e anotados na plataforma TEITOK (pode consultarse o manual técnico de transcrición). Con respecto ás anotacións, cómpre sinalar que  as formas non estándares escritas polo alumnado foron estandarizadas e codificadas en seis niveis lingüísticos: ortográfico, morfolóxico, léxico, gramatical (sintáctico), semántico e discursivo. Os códigos asignados indican o tipo de desviación do estándar e nalgúns casos tamén a fonte da diverxencia (analoxía, transferencia do español...). Uns poucos códigos, que afectan ou que poden afectar a secuencias de palabras (por exemplo, o que identifica os enunciados excesivamente complexos), anótanse mediante un sistema diferente ao empregado nos restantes casos (anotacións multipalabra, que se asignan mediante o sistema stand-off). No documento Códigos e etiquetas EAGLES empregados na anotación dos textos en CORTEGAL, Corpus de textos galegos escritos por estudantes no ámbito académico poden consultarse os valores dos diferentes códigos e no documento Manual de anotación figura unha explicación detallada cos criterios de estandarización e de asignación de tales códigos.

CORTEGAL está lematizado automaticamente mediante Freeling, que lle asigna á forma léxica estándar lema e categoría gramatical (neste último caso con etiquetas EAGLES, cuxo valor pode consultarse no documento xa citado Códigos e etiquetas EAGLES empregados na anotación dos textos en CORTEGAL, Corpus de textos galegos escritos por estudantes no ámbito académico). Un aspecto metodolóxico importante de CORTEGAL é a asignación manual, na maior parte das formas estandarizadas lexicamente, dun segundo lema, chamado lema orixinal e, nunhas poucas destas formas, dunha segunda categoría gramatical, denominada clase gramatical orixinal. Así, a forma platos recibe dous lemas: o lema estándar prato, asignado automaticamente mediante FreeLing, e o lema orixinal plato, asignado manualmente. O lema orixinal é a forma de cita que representa a voz escrita polo estudante (unha vez estandarizada, se é o caso, ortográfica e morfoloxicamente), así como calquera outra variante flexiva que poida haber no corpus. A categoría gramatical orixinal introdúcese tamén manualmente cando existe algunha diferenza entre a clase ou subclase de palabras da forma escrita polo/pola estudante e da forma estandarizada do nivel léxico. O exemplo máis claro é o das voces etiquetadas con L_gen_su, en que se produce a asignación dun xénero non estándar a determinadas palabras. Deste xeito, a palabra leite na secuencia «a leite» ten atribuída como clase de palabra estándar a etiqueta NCMS000 (substantivo común masculino singular), pero como clase de palabra orixinal NCFS000 (substantivo común feminino singular).

Finalmente, foron tamén anotados os conectores que teñen como función a vinculación entre enunciados (excluíndo vínculos temporais relativos á ordenación cronolóxica dos feitos na realidade e vínculos intraoracionais). Os conectores textuais foron clasificados en 13 grupos de acordo co valor que achegan e que pode ser consultado no documento Códigos e etiquetas EAGLES empregados na anotación dos textos en CORTEGAL, Corpus de textos galegos escritos por estudantes no ámbito académico). 

Con respecto á visualización dos textos, estes poden ser consultados en varias capas: na transcrición completa, que inclúe as riscaduras realizadas polas/polos estudantes (as formas engadidas a posteriori, por exemplo entre liñas ou sobre o texto riscado, destácanse en vermello); na versión final da/do estudante, en que se suprimen as formas riscadas; e nas seis capas de estandarización arriba mencionadas. As estandarizacións feitas en cada nivel destácanse mediante diferentes cores, pero para iso a opción "Cores" ten que estar activada. As estandarizacións ortográficas figuran en lila, as morfolóxicas en laranxa, as léxicas en verde, as gramaticais en salmón, as semánticas en azul e as discursivas en fucsia.