GALEGO | ENGLISH | ESPAÑOL

 

AYUDA PARA LA APLICACIÓN DE CONSULTA

 

La aplicación permite realizar diferentes operaciones de búsqueda en los textos incluidos en el corpus, bien sea a través del “constructor de consultas”, bien sea directamente escribiendo en la caja de buscas CQL. Además, también es posible obtener información sobre la distribución de las formas atendiendo a diversos criterios. En esta ayuda se ofrece información sobre el sistema de búsquedas, pero en este manual avanzado de consultas e visualización dos textos en CORTEGAL puede encontrarse un documento más completo sobre tal sistema, así como información sobre la visualización de los textos.

Generador de consultas

El generador de consultas permite buscar texto y buscar documentos.

Busca de texto

Dos tipos generales de búsqueda

En las búsquedas por “Tipo de desviación del estándar”, “Fuente de la forma no estándar”, “Clase de palabra estándar”, “Clase de palabra original” y “Conector” se ofrece un selector con diferentes etiquetas. Se debe seleccionar la etiqueta que se desea buscar y pulsar en “Buscar” en la parte inferior izquierda del generador de consultas.

En el resto de los casos se debe escribir en la caja de búsquedas correspondiente a la consulta que nos interesa la palabra que se desea buscar. Más en concreto, es posible localizar, seleccionando la opción correspondiente en el menú desplegable, (a) la palabra completa escrita en la caja de búsquedas, (b) una palabra que comienza por una determinada secuencia de caracteres, (c) una palabra que termina en una determinada secuencia de caracteres, o (d) una palabra que contiene una secuencia de caracteres.

Una vez más, una vez seleccionada la búsqueda que se quiere hacer, se debe pulsar en “Buscar”.

Tipos concretos de búsqueda

  • Versión final estudiante

Permite localizar una palabra tal y como figura escrita por la/el estudiante. Si se quiere buscar una secuencia de palabras, puede escribirse una palabra, a seguir pulsar en “añadir token” (que aparece en la parte final del generador de consultas, por encima del botón de “Buscar”), escribir en “palabra” el segundo elemento de la secuencia, repetir estos pasos tantas veces como palabras conformen la secuencia que se quiere buscar y finalmente pulsar en la parte inferior en “Buscar”. En cualquier caso, la búsqueda de una secuencia de palabras es más fácil a través de la caja de búsquedas CQL.

Debe tenerse en cuenta, por otro lado, que en el caso de las contracciones, de los verbos con pronomes enclíticos, de las combinaciones de los demostrativos con el indefinido otro y del empleo de la segunda forma del artículo el sistema divide la palabra en los elementos que la constituyen. De este modo, el buscador “Versión final estudiante” no va a encontrar, por ejemplo, la contracción das, ni la forma trátase, ni la palabra estoutro, ni el complejo tódolos. Para encontrar estas formas se debe hacer una búsqueda CQL o bien escribir el primero componente (por ejemplo trata) y “añadir token” para el siguiente componente (por ejemplo se), tal y como indicamos en el párrafo precedente para las secuencias de palabras. Coherentemente con lo que se acaba de indicar, una búsqueda a través de la preposición de en el buscador “Versión final estudiante” ofrecerá los ejemplos de empleo de de tanto en contracción como fuera de ella, una búsqueda por la palabra trata mostrará los ejemplos de trata con pronome enclítico y sin él etc.

  • Estándar ortográfico / morfológico / léxico / gramatical / semántico / discursivo

Algunas palabras del texto son estandarizadas en uno o varios de estos seis niveles lingüísticos y las cajas de búsqueda correspondientes permiten localizar las respectivas formas estandarizadas.

Se debe tener en cuenta, en cualquier caso, que una búsqueda por esta vía encuentra tanto las formas estandarizadas por el equipo del proyecto como aquellas que ya eran estándar en el discurso de la/del estudiante. Así, por ejemplo, quien busque en la caja de búsquedas “Estándar morfológico” una secuencia que comience por esté encontrará tanto los ejemplos de esté, estemos, esteñan, estén, esten... que fueron estandarizados en el proceso de anotación de los textos con estea, esteamos..., como los casos en que el/la estudiante escribió directamente la forma estándar.

En algunos casos, la estandarización supone la supresión de la forma escrita por el estudiante. Estas formas suprimidas, además de seleccionando en “Tipo de desviación del estándar” las etiquetas de adición (_ad), pueden ser recuperadas escribiendo dos trazos (--) en las cajas de búsqueda de las formas estándares.

  • Tipo de desviación del estándar

La caja de búsquedas “Tipo de desviación del estándar” permite identificar todas aquellas formas que fueron etiquetadas con un código identificador de formas no estándares en alguno de los seis niveles lingüísticos arriba indicados. Los códigos que figuran en el selector de este tipo de búsqueda, con su valor y ejemplos figuran en el documento Códigos e etiquetas EAGLES empregados na anotación dos textos en CORTEGAL, Corpus de textos galegos escritos por estudantes no ámbito académico.

  • Fuente de la forma no estándar

Algunas de las formas etiquetadas con un código de forma no estándar van acompañadas de otra etiqueta que identifica el origen o causa de la desviación. Esta caja de búsquedas permite localizar los códigos, cuyo valor se puede encontrar en el documento Códigos e etiquetas EAGLES empregados na anotación dos textos en CORTEGAL, Corpus de textos galegos escritos por estudantes no ámbito académico.

  • Clase de palabra estándar y clase de palabra original

Pueden hacerse búsquedas por las clases morfosintácticas de las palabras del corpus. El buscador ofrece un selector con las principales clases de palabras (sustantivo, adjetivo, verbo...), pero se se desea hacer una búsqueda más específica (por ejemplo, sustantivo masculino singular o 1ª persona de singular del presente de indicativo) se debe realizar una consulta a través de la caja de búsquedas CQL. Las etiquetas empleadas pueden consultarse en el documento Códigos e etiquetas EAGLES empregados na anotación dos textos en CORTEGAL, Corpus de textos galegos escritos por estudantes no ámbito académico.

En lo que respecta a la diferencia entre clase de palabra estándar y clase de palabra original, debe tenerse en cuenta que algunas formas son corregidas en el nivel léxico, de suerte que puede haber diferencias en la clase de palabra que escribió la/el estudiante (clase de palabra original) y la clase de palabra de la forma normalizada (clase de palabra estándar). Así, por ejemplo, la palabra frente, masculina, es corregida por fronte, femenina. Sólo en estos casos habrá diferencias entre la clase de palabra original (NCMS000) y la estándar (NCFS000). En los restantes casos, los resultados de la búsqueda por una u otra vía serán idénticos.

  • Lema estándar y lema original

Estas cajas permiten localizar en los textos las formas correspondientes a un determinado lema (por ejemplo, todas las ocurrencias en el corpus del verbo valer en cualquier forma de su paradigma).

Con respecto a las diferencias entre las búsquedas por lema estándar y por lema original, estas vienen dadas por las estandarizaciones que se realizan en el nivel léxico. Así, el lema original de las palabras plato y platos será plato y el lema estándar plato. Del mismo modo, el lema original de articuloartículo y artículos será artículo y el lema estándar artigo. Así pues, el lema original es la forma canónica representante del paradigma de la forma escrita por la/el estudiante, mientras que el lema estándar representa el paradigma de la correspondiente forma gallega estándar. Si no hay correcciones en el nivel léxico, el lema original coincide con el lema estándar.

  • Conector

Es posible localizar mediante la caja de búsquedas “Conector” los conectores empleados para vincular enunciados en el texto. Estos están identificados con las etiquetas que figuran en el documento Códigos e etiquetas EAGLES empregados na anotación dos textos en CORTEGAL, Corpus de textos galegos escritos por estudantes no ámbito académico.

  • Anotaciones multipalabra

En la parte inferior derecha del generador de consultas se pueden hacer búsquedas de las Anotaciones multipalabra. Algunas desviaciones del estándar, que pueden afectar a secuencias de palabras, son anotados de manera diferente a los restantes, mediante anotaciones stand-off y sólo son recuperables mediante el selector “Código de desviación” que figura en este apartado del constructor de consultas. Los códigos y su significado se recogen en el documento Códigos e etiquetas EAGLES empregados na anotación dos textos en CORTEGAL, Corpus de textos galegos escritos por estudantes no ámbito académico (figuran en el listado de códigos de desviación del estándar, marcados con stand-off):

Búsqueda de documentos

Además de las búsquedas sobre el texto pueden hacerse búsquedas de documentos, así como combinar las búsquedas sobre el texto con el filtrado por documentos. Estos pueden seleccionarse de acuerdo con los siguientes criterios:

  1. Título (por ejemplo ABAU/2016-2017/CD13/xuño/04). Permite buscar un texto concreto. La primera parte del título (ABAU/2016-2017) es común para todos los textos. El que varía es el número de la comisión delegada (CD13, CD09...) (vid. el punto 4), la convocatoria (xuño o setembro) y las cifras finales, que diferencian los textos pertenecientes a la misma comisión delegada y convocatoria.
  2. Ofrece un selector con los cuatros temas de los textos (“La gastronomía”, “Consumo y producción”, ambos de la convocatoria de junio, “Conflictos familiares” y “Los referentes de la juventud”, ambos de la convocatoria de septiembre). Puede seleccionarse uno de ellos para hacer las búsquedas.
  3. Convocatoria del examen. Si se desea, se pueden seleccionar sólo los exámenes de la convocatoria de junio o sólo los de septiembre.
  4. Comisión delegada. Cada examen de la ABAU está vinculado a una comisión delegada (CD) asignada al centro de la/del estudiante y cada CD recoge diversos centros (públicos y privados) de una determinada árela geográfica. La persona usuaria puede seleccionar una comisión delegada (CD) en particular. Los centros asociados la cada CD pueden consultarse en el documento Centros de ensino asociados ás comisións delegadas das probas ABAU (curso 2016-2017). En la convocatoria de septiembre, con muchos menos alumnos que la de junio, algunas CD se agrupan, lo que explica que en el buscador aparezcan algunas combinaciones como, por ejemplo, 01-03-05.
  5. Número de palabras. Se pueden seleccionar todos aquellos textos cuyo número de palabras se sitúe en un rango indicado por la persona usuaria. Dado que el cómputo se realizó a través de la aplicación DContado, de acuerdo con el sistema establecido por esta no se contabilizan los signos de puntuación y, por otro lado, las contracciones, los verbos con pronomes enclíticos y las formas acompañadas de la segunda forma del artículo se computan como unidades.
  6. Número de lemas. Se pueden seleccionar todos aquellos textos cuyo número de lemas o palabras diferentes se sitúe en el rango indicado por la persona usuaria.
  7. Densidad léxica. La persona usuaria puede establecer un rango para filtrar los textos por densidad léxica. En principio, esta resulta de dividir el número de lemas entre el número de palabras y siempre se sitúa entre 0 y 1. Con todo, el buscador de la aplicación no tiene en cuenta los decimales en las búsquedas, de tal manera que optamos por multiplicar la cifra por 100 para poder utilizar este criterio para el filtrado. Así pues, un texto con una densidad léxica de 0,54 habrá asignado el valor 54. Luego, el rango del buscador se sitúa entre 0 y 100.
  8. Número de enunciados. Se pueden filtrar los textos por el número de enunciados que contienen y de acuerdo con el rango que se desee establecer.
  9. Palabras por enunciado. Otro criterio de selección de los documentos es el promedio de palabras por enunciado, calculado dividiendo el número de palabras del texto entre el número de enunciados que contiene. Se debe tener en cuenta que, tal y como se indicó en el punto 7, la aplicación sólo considera la parte entera de los valores numéricos atribuidos, de tal manera que si buscamos un texto con un promedio de palabras por enunciado situado entre 13 y 15, encontrará también aquellos textos cuya media es 15 seguida de decimales.
  10. Palabras enunciado más largo. Se pueden buscar aquellos textos cuyo enunciado más largo se sitúe en el rango de número de palabras establecido por la persona usuaria.
  11. Palabras enunciado más corto. Se pueden buscar aquellos textos cuyo enunciado más corto se sitúe en el rango de número de palabras establecido por la persona usuaria.
  12. Número de párrafos. La aplicación permite localizar aquellos textos con un número de párrafos que se sitúe en el rango que se indique.
  13. Enunciados por párrafo. La aplicación permite localizar aquellos textos con un promedio de enunciados por párrafo que se sitúe en el rango solicitado. Se aplica aquí la misma consideración sobre los decimales comentada en el punto 9.

 

Tras realizar una búsqueda exclusivamente a través del Buscador de documentos (sin combinar con la búsqueda de texto) se obtiene un listado de los documentos encontrados, con todas sus características. Presionando en la primera columna (ID) se accede a cada texto. Además, pulsando en el botón Buscar situado a la derecha de la caja de consultas CQL sin escribir nada en ninguna caja de búsquedas, se obtiene el listado de todos los textos con sus características.

Por otra parte, puede combinarse la búsqueda en el texto con la búsqueda por documentos para filtrar los resultados. Por ejemplo, podemos trabajar sólo con el subcorpus de textos con el tema “A gastronomía” seleccionando el “Tema” correspondiente en el selector y al tiempo buscar en el generador de consultas las desviaciones del estándar, lemas... que nos interesen. De esta vez, el resultado será una concordancia con las líneas de texto que cumplen los criterios de la búsqueda, pero sólo en los textos que tratan el tema de la gastronomía.

Buscas CQL (“Corpus Query Builder”)

Las búsquedas CQL permiten buscar una palabra o secuencia de palabras escritas por la/el estudiante insertando directamente tal palabra o secuencia en la caja “Consulta CQL”. Puede usarse el comodin *, que representa cero o más caracteres.

Pero, además de esto, las consultas CQL permiten relizar búsquedas complejas y aprovechar al máximo las potencialidades del buscador. Así, por ejemplo, podemos encontrar cualquier desviación, sea del nivel ortográfico, morfológico o léxico que afecte a la acentuación escribiendo en la caja de búsquedas [problem = ".*ac.*"]. Además, puede emplearse el operador lógico & para combinar dos criterios de búsqueda que se deben cumplir al tiempo. Así, por ejemplo, con la secuencia

[pos = "CS" & lemma = "que"]

encontramos todos los ejemplos del lema que etiquetado como conjunción subordinante.

Asimismo, utilizaremos el operador lógico | para realizar búsquedas conjuntas de varias formas. Así, por ejemplo, en el siguiente caso obtenemos una concordancia con las líneas de texto en que aparecen míotuyo o suyo.

[lemma= "mi"|lemma= "tu"|lemma= "suyo"]

Es posible también realizar un filtrado negativo mediante el elemento ! colocado inmediatamente después del criterio de búsqueda y junto antes del símbolo igual (sin espacios entre ellos). Este elemento excluye la presencia de los elementos situados a la derecha del símbolo igual. Así, por ejemplo, con la siguiente consulta buscamos todos los casos de fai que no fueron corregidos por hai en el nivel semántico:

[form= "fai" & scform!= "hai"]

Por otro lado, por defecto, el buscador diferencia entre mayúsculas y minúsculas, pero es posible cancelar la diferenciación entre ellas mediante %ci. Para eso, escribiremos este elemento en la caja de búsquedas CQL, a la derecha de la formas buscada: [form="pero" %ci]. En caso de que busquemos una secuencia de caracteres, la expresión %ci debe integrarse dentro del corchete de la palabra o de las palabras en que nos interese la cancelación. Por ejemplo, para obtener los ejemplos de De feito y de de feito, se debe escribir en la caja de búsquedas [form="de" %ci] [form="feito"].

Recuérdese que, tal y como se indicó, puede encontrarse información más detallada sobre el sistema de búsquedas y particularmente sobre las consultas CQL en el manual avanzado de consultas y visualización de los textos en CORTEGAL.

Consultas por frecuencia

Otra opción que nos ofrece el buscador es la de obtener datos de frecuencia y distribución. Para eso debemos acudir a la sección “Consultas sobre frecuencia” que encontramos después de los resultados de una búsqueda.

Así, por ejemplo, si queremos obtener información rápida sobre la distribución de los casos de adición de preposición entre las diferentes preposiciones, deberemos buscar el código G_prep_ad en "Tipo de desviación del estándar". Una vez hecha la búsqueda deberemos acudir, en “Consultas sobre frecuencia”, a “Frecuencia por” y seleccionar “Lema estándar”. El resultado que obtenemos por defecto es una tabla con la distribución por preposiciones e información sobre la frecuencia en números absolutos (segunda columna) y con el índice por diez millones de palabras en la tercera columna.

Seleccionando el modo de presentación que nos interese en “Gráfica”, los resultados pueden ofrecerse también mediante gráfica de sectores, de barras, de líneas, de dispersión y mediante un histograma. Asimismo, en la última opción, “Estadística”, encontramos información diversa (media, mediana, desviación estándar...). Para esta información estadística puede seleccionarse en “Contar” la opción WPM (palabras por millón). Además, en “descargar” los datos pueden descargarse en diferentes formatos.

Del mismo modo, si queremos saber, por ejemplo, la distribución de la omisión de los signos de puntuación entre los diferentes signos, debemos seleccionar D_pm_om y a continuación, en “Frecuencia por”, escoger “estándar discursivo” (téngase en cuenta que las formas que llevan una etiqueta de omisión en los niveles gramatical, semántico o discursivo no son lematizadas, de suerte que no son recuperables mediante la búsqueda por lema).

Otra opción de búsqueda que nos ofrece la aplicación es aquella que nos permite encontrar directamente la distribución de las diferentes formas (“Versión final estudiante”) que resultan de una búsqueda. De este modo, si hacemos, por ejemplo, una búsqueda por un lema (facer) y pulsamos en “Versión final estudiante” encontraremos todas las formas a las que se le asignó el citado lema estándar, junto con su frecuencia. De igual manera, podemos buscar, por ejemplo, todas las formas con la clase de palabra SP y a seguir obtener el listado de preposiciones con su frecuencia.