Cortegal

AXUDA PARA A APLICACIÓN DE CONSULTA

A aplicación permite realizar diferentes operacións de busca nos textos incluídos no corpus, ben sexa a través do “xerador de consultas”, ben sexa directamente escribindo na caixa de buscas CQL. Ademais, tamén é posible obter información sobre a distribución das formas atendendo a diversos criterios. Nesta axuda ofrécese información sobre o sistema de buscas, pero neste manual avanzado de buscas e visualización dos textos en CORTEGAL pode atoparse un documento máis completo sobre tal sistema, así como información sobre a visualización dos textos.

Xerador de consultas

O xerador de consultas permite buscar texto e buscar documentos.

Busca de texto

Dous tipos xerais de busca

Nas buscas por “Tipo de desviación do estándar”, “Fonte da forma non estándar”, “Clase de palabra estándar”, “Clase de palabra orixinal” e “Conector” ofrécese un selector con diferentes etiquetas. Cómpre seleccionar a etiqueta que se desexa buscar e premer en “Buscar” na parte inferior esquerda do xerador de consultas.

No resto dos casos débese escribir na caixa de buscas correspondente á consulta que nos interesa a palabra que se desexa buscar. Máis en concreto, é posible localizar, seleccionando a opción correspondente no menú despregable, (a) a palabra completa escrita na caixa de buscas, (b) unha palabra que comeza por unha determinada secuencia de caracteres, (c) unha palabra que remata nunha determinada secuencia de caracteres, ou (d) unha palabra que contén unha secuencia de caracteres.

Unha vez máis, unha vez seleccionada a busca que se quere facer, cómpre premer en “Buscar”.

Tipos concretos de busca

Versión final estudante

Permite localizar unha palabra tal e como figura escrita pola/polo estudante. Se se quere buscar unha secuencia de palabras, pode escribirse unha palabra, a seguir premer en “engada palabra” (que aparece na parte final do xerador de consultas, por riba do botón de “Buscar”), escribir en “palabra” o segundo elemento da secuencia, repetir estes pasos tantas veces como palabras conformen a secuencia que se quere buscar e finalmente premer na parte inferior en “Buscar”. En calquera caso, a busca dunha secuencia de palabras é máis doada a través da caixa de buscas CQL.

Debe terse en conta, por outro lado, que no caso das contraccións, dos verbos con pronomes enclíticos, das combinacións dos demostrativos co indefinido outro e do emprego da segunda forma do artigo o sistema divide a palabra nos elementos que a constitúen. Deste xeito, o buscador “Versión final estudante” non vai encontrar, por exemplo, a contracción das, nin a forma trátase, nin a palabra estoutro, nin o complexo tódolos. Para atopar estas formas débese facer unha busca CQL ou ben escribir o primeiro compoñente (por exemplo trata) e “engadir palabra” para o seguinte compoñente (por exemplo se), tal e como indicamos no parágrafo precedente para as secuencias de palabras. Coherentemente co que se acaba de indicar, unha busca a través da preposición de no buscador “Versión final estudante” ofrecerá os exemplos de emprego de de tanto en contracción como fóra dela, unha procura pola palabra trata mostrará os exemplos de trata con pronome enclítico e sen el etc.

Estándar ortográfico / morfolóxico / léxico / gramatical / semántico / discursivo

Algunhas palabras do texto son estandarizadas nun ou varios destes seis niveis lingüísticos e as caixas de busca correspondentes permiten localizar as respectivas formas estandarizadas.

Débese ter en conta, en calquera caso, que unha busca por esta vía encontra tanto as formas estandarizadas polo equipo do proxecto como aquelas que xa eran estándar no discurso da/do estudante. Así, por exemplo, quen busque na caixa de buscas “Estándar morfolóxico” unha secuencia que comece por estea encontrará tanto os exemplos de esté, estemos, esteñan, estén, esten... que foron estandarizados no proceso de anotación dos textos con estea, esteamos..., como os casos en que o/a estudante escribiu directamente a forma estándar.

Nalgúns casos a estandarización supón a supresión da forma escrita polo estudante. Estas formas suprimidas, ademais de seleccionando en “Tipo de desviación do estándar” as etiquetas de adición (_ad), poden ser recuperadas escribindo dous trazos (--) nas caixas de busca das formas estándares.

Tipo de desviación do estándar

A caixa de buscas “Tipo de desviación do estándar” permite identificar todas aquelas formas que foron etiquetadas cun código identificador de formas non estándares nalgún dos seis niveis lingüísticos arriba indicados. Os códigos que figuran no selector deste tipo de busca, co seu valor e exemplos figuran no documento Códigos e etiquetas EAGLES empregados na anotación dos textos en CORTEGAL, Corpus de textos galegos escritos por estudantes no ámbito académico.

Fonte da forma non estándar

Algunhas das formas etiquetadas cun código de forma non estándar van acompañadas doutra etiqueta que identifica a orixe ou causa da desviación. Esta caixa de buscas permite localizar os códigos, cuxo valor se pode atopar no documento Códigos e etiquetas EAGLES empregados na anotación dos textos en CORTEGAL, Corpus de textos galegos escritos por estudantes no ámbito académico.

Clase de palabra estándar e clase de palabra orixinal

Poden facerse buscas polas clases morfosintácticas das palabras do corpus. O buscador ofrece un selector coas principais clases de palabras (substantivo, adxectivo, verbo...), pero se se desexa facer unha busca máis específica (por exemplo, substantivo masculino singular ou 1ª persoa de singular do presente de indicativo) cómpre realizar unha consulta a través da caixa de buscas CQL. As etiquetas empregadas poden consultarse en el documento Códigos e etiquetas EAGLES empregados na anotación dos textos en CORTEGAL, Corpus de textos galegos escritos por estudantes no ámbito académico.

No que respecta á diferenza entre clase de palabra estándar e clase de palabra orixinal, debe terse en conta que algunhas formas son corrixidas no nivel léxico, de xeito que pode haber diferenzas na clase de palabra que escribiu a/o estudante (clase de palabra orixinal) e a clase de palabra da forma normalizada (clase de palabra estándar). Así, por exemplo, a palabra frente, masculina, é corrixida por fronte, feminina. Só nestes casos haberá diferenzas entre a clase de palabra orixinal (NCMS000) e a estándar (NCFS000). Nos restantes casos, os resultados da busca por unha ou outra vía serán idénticos.

Lema estándar e lema orixinal

Estas caixas permiten localizar nos textos as formas correspondentes a un determinado lema (por exemplo, todas as ocorrencias no corpus do verbo valer en calquera forma do seu paradigma).

Con respecto ás diferenzas entre as buscas por lema estándar e por lema orixinal, estas veñen dadas polas estandarizacións que se realizan no nivel léxico. Así, o lema orixinal das palabras plato e platos será plato e o lema estándar prato. Do mesmo xeito, o lema orixinal de articulo, artículo e artículos será artículo e o lema estándar artigo. Así pois, o lema orixinal é a forma canónica representante do paradigma da forma escrita pola/polo estudante, mentres que o lema estándar representa o paradigma da correspondente forma galega estándar. Se non hai estandarizacións no nivel léxico, o lema orixinal coincide co lema estándar.

Conector

É posible localizar mediante a caixa de buscas “Conector” os conectores empregados para vincular enunciados no texto. Estes están identificados coas etiquetas que figuran no documento Códigos e etiquetas EAGLES empregados na anotación dos textos en CORTEGAL, Corpus de textos galegos escritos por estudantes no ámbito académico.

Anotacións multipalabra

Na parte inferior dereita do xerador de consultas pódense facer buscas das Anotacións multipalabra. Algúns tipos de desviacións, que poden afectar a secuencias de palabras, son anotados de maneira diferente aos restantes, mediante anotacións stand-off e só son recuperables mediante o selector “Código de desviación” que figura neste apartado do xerador de consultas. Os códigos e o seu significado recóllense no documento Códigos e etiquetas EAGLES empregados na anotación dos textos en CORTEGAL, Corpus de textos galegos escritos por estudantes no ámbito académico (figuran na listaxe de códigos de desviación do estándar, marcados con stand-off):

Busca de documentos

Ademais das buscas sobre o texto poden facerse buscas de documentos, así como combinar as buscas sobre o texto coa filtraxe por documentos. Estes poden seleccionarse de acordo cos seguintes criterios:

Título (por exemplo ABAU/2016-2017/CD13/xuño/04). Permite buscar un texto concreto. A primeira parte do título (ABAU/2016-2017) é común para todos os textos. O que varía é o número da comisión delegada (CD13, CD09...) (vid. o punto 4), a convocatoria (xuño ou setembro) e as cifras finais, que diferencian os textos pertencentes á mesma comisión delegada e convocatoria.
Tema. Ofrece un selector cos catros temas dos textos (“A gastronomía”, “Consumo e produción”, ambos da convocatoria de xuño, “Conflitos familiares” e “Os referentes da mocidade”, ambos os dous da convocatoria de setembro. Pode seleccionarse un deles para facer as buscas.
Convocatoria do exame. Se se desexa, pódense seleccionar só os exames da convocatoria de xuño ou só os de setembro.
Comisión delegada. Cada exame da ABAU está vinculado a unha comisión delegada (CD) asignada ao centro da/do estudante e cada CD recolle diversos centros (públicos e privados) dunha determinada área xeográfica. A persoa usuaria pode seleccionar unha comisión delegada (CD) en particular. Os centros asociados a cada CD poden consultarse no documento Centros de ensino asociados ás comisións delegadas das probas ABAU (curso 2016-2017). Na convocatoria de setembro, con moitos menos alumnos ca a de xuño, algunhas CD agrúpanse, o que explica que no buscador aparezan algunhas combinacións como, por exemplo, 01-03-05.
Número de palabras. Pódense seleccionar todos aqueles textos cuxo número de palabras se sitúe nun rango fornecido pola persoa usuaria. Dado que o cómputo, tal e como indicaremos en breve, se realizou a través da aplicación DContado, de acordo co sistema establecido por esta non se contabilizan os signos de puntuación e, por outro lado, as contraccións, os verbos con pronomes enclíticos e as formas acompañadas da segunda forma do artigo compútanse como unidades.
Número de lemas. Pódense seleccionar todos aqueles textos cuxo número de lemas ou palabras diferentes se sitúe no rango indicado pola persoa usuaria.
Densidade léxica. A persoa usuaria pode establecer un rango para filtrar os textos por densidade léxica. En principio, esta resulta de dividir o número de lemas entre o número de palabras e sempre se sitúa entre 0 e 1. Con todo, o buscador da aplicación non ten en conta os decimais nas buscas, de tal xeito que optamos por multiplicar a cifra por 100 para poder utilizar este criterio para a filtraxe. Así pois, un texto cunha densidade léxica de 0,54 terá asignado o valor 54. Daquela, o rango do buscador sitúase entre 0 e 100.
Número de enunciados. Pódense filtrar os textos polo número de enunciados que conteñen e de acordo co rango que se desexe establecer.
Palabras por enunciado. Outro criterio de selección dos documentos é a media de palabras por enunciado, calculada dividindo o número de palabras do texto entre o número de enunciados que contén. Débese ter en conta que, tal e como se indicou no punto 7, a aplicación só ten en conta a parte enteira dos valores numéricos atribuídos, de tal xeito que se buscamos un texto cunha media de palabras por enunciado situada entre 13 e 15, encontrará tamén aqueles textos cuxa media é 15 seguida de decimais.
Palabras enunciado máis longo. Pódense buscar aqueles textos cuxo enunciado máis longo se sitúe no rango de número de palabras establecido pola persoa usuaria.
Palabras enunciado máis curto. Pódense buscar aqueles textos cuxo enunciado máis curto se sitúe no rango de número de palabras establecido pola persoa usuaria.
Número de parágrafos. A aplicación permite localizar aqueles textos cun número de parágrafos que se sitúe no rango que se indique.
Enunciados por parágrafo. A aplicación permite localizar aqueles textos cunha media de enunciados por parágrafo que se sitúe no rango solicitado. Aplícase aquí a mesma consideración sobre os decimais comentada no punto 9.

Tras realizar unha busca exclusivamente a través do Buscador de documentos (sen combinar coa busca de texto) obtense unha listaxe dos documentos atopados, con todas as súas características. Premendo na primeira columna (ID) accédese a cada texto. Ademais, premendo no botón Buscar situado á dereita da caixa de consultas CQL sen escribir nada en ningunha caixa de buscas, obtense a listaxe de todos os textos coas súas características.

Por outra banda, pode combinarse a busca no texto coa busca por documentos para filtrar os resultados. Por exemplo, podemos traballar só co subcorpus de textos co tema “A gastronomía” seleccionando o “Tema” correspondente no selector e ao tempo buscar no xerador de consultas as desviacións do estándar, lemas... que nos interesen. Desta volta, o resultado será unha concordancia coas liñas de texto que cumpren os criterios da busca, pero só nos textos que tratan o tema da gastronomía.

Buscas CQL (“Corpus Query Builder”)

As buscas CQL permiten buscar unha palabra ou secuencia de palabras escritas pola/polo estudante inserindo directamente tal palabra ou secuencia na caixa “Consulta CQL”. Pode usarse o comodin *, que representa cero ou máis caracteres.

Pero, ademais disto, as consultas CQL permiten relizar buscas complexas e aproveitar ao máximo as potencialidades do buscador. Así, por exemplo, podemos encontrar calquera desviación, sexa do nivel ortográfico, morfolóxico ou léxico que afecte á acentuación escribindo na caixa de buscas [problem = ".*ac.*"]. Ademais, pode empregarse o operador lóxico & para combinar dous criterios de busca que se deben cumprir ao tempo. Así, por exemplo, coa secuencia

[pos = "CS" & lemma = "que"]

encontramos todos os exemplos do lema que etiquetado como conxunción subordinante.

Así mesmo, utilizaremos o operador lóxico|para realizar buscas conxuntas de varias formas. Así, por exemplo, no seguinte caso obtemos unha concordancia coas liñas de texto en que aparecen meu, teu ou seu.

[lemma= "meu"|lemma= "teu"|lemma= "seu"]

É posible tamén realizar unha filtraxe negativa mediante o elemento ! colocado inmediatamente despois do criterio de busca e xunto antes do símbolo igual (sen espazos entre eles). Este elemento exclúe a presenza dos elementos situados á dereita do símbolo igual. Así, por exemplo, coa seguinte consulta buscamos todos os casos de fai que non foron corrixidos por hai no nivel semántico:

[form= "fai" & scform!= "hai"]

Por outro lado, por defecto, o buscador diferencia entre maiúsculas e minúsculas, pero é posible cancelar a diferenciación entre elas mediante %ci. Para iso, escribiremos este elemento na caixa de buscas CQL, á dereita da formas buscada: [form="pero" %ci]. No caso de que busquemos unha secuencia de caracteres, a expresión %ci debe integrarse dentro do corchete da palabra ou das palabras en que nos interese a cancelación. Por exemplo, para obter os exemplos de De feito e de de feito, cómpre ter na caixa de buscas [form="de" %ci] [form="feito"].

Lémbrese que, tal e como se indicou, neste manual avanzado de buscas e visualización dos textos en CORTEGAL pode encontrarse información máis detallada sobre o sistema de buscas e particularmente sobre as consultas CQL.

Consultas por frecuencia

Outra opción que nos ofrece o buscador é a de obter datos de frecuencia e distribución. Para iso debemos acudir á sección “Consultas sobre frecuencia” que encontramos despois dos resultados dunha busca.

Así, por exemplo, se queremos obter información rápida sobre a distribución dos casos de adición de preposición entre as diferentes preposicións, deberemos buscar o código G_prep_ad en "Tipo de desviación do estándar". Unha vez feita a busca deberemos acudir, en “Consultas sobre frecuencia” a “Frecuencia por” e seleccionar “Lema estándar”. O resultado que obtemos por defecto é unha táboa coa distribución por preposicións e información sobre a frecuencia en números absolutos (segunda columna) e co índice por dez millóns de palabras na terceira columna.

Seleccionando o modo de presentación que nos interese en “Gráfica”, os resultados poden ofrecerse tamén mediante gráfica de sectores, de barras, de liñas, de dispersión e mediante un histograma. Así mesmo, na última opción, “Estatística”, atopamos información diversa (media, mediana, desviación estándar...). Para esta información estatística pode seleccionarse en “Contar” a opción WPM (palabras por millón). Ademais, en “descargar” os datos poden descargarse en diferentes formatos.

Do mesmo xeito, se queremos saber, por exemplo, a distribución da omisión dos signos de puntuación entre os diferentes signos, debemos seleccionar D_pm_om e a seguir, en “Frecuencia por”, escoller “estándar discursivo” (téñase en conta que as formas que levan unha etiqueta de omisión nos niveis gramatical, semántico ou discursivo non son lematizadas, de xeito que non son recuperables mediante a busca por lema).

Outra opción de busca que nos ofrece a aplicación é aquela que nos permite encontrar directamente a distribución das diferentes formas (“Versión final estudante”) que resultan dunha busca. Deste xeito, se facemos, por exemplo, unha busca por un lema (facer) e prememos en “Versión final estudante” encontraremos todas as formas ás que se lle asignou o citado lema estándar, canda a súa frecuencia. De igual maneira, podemos buscar, por exemplo, todas as formas coa clase de palabra SP e a seguir obter a listaxe de preposicións coa súa frecuencia.