Corpus Xelmírez - Corpus lingüístico da Galicia medieval
Como facer buscas
As buscas simples no Corpus Xelmírez pódense facer doadamente escribindo na cela de busca a palabra ou secuencia de palabras que se queira consultar, e calcando despois no botón de "Busca". Se non se indica máis nada, a procura faise na totalidade dos textos que forman parte do Corpus Xelmírez . Pódese limitar o ámbito da busca aos textos pertencentes a un dominio temático seleccionando a opción correspondente antes de calcar no botón de "Busca".
As buscas no Corpus Xelmírez de expresións máis complexas pódense facer mediante as chamadas "expresións regulares" de tipo POSIX estendido (POSIX 1003.2). As expresións regulares son secuencias de caracteres e símbolos que describen como é a cadea de texto buscada. Por exemplo:
- peito - palabras que conteñan a secuencia de caracteres "peito" en calquera posición. Exemplos: "sospeitosa", "peito", "respeito", ...
- [[:<:]]port[[:alpha:]]* - palabras que empecen por "port" ("[[:<:]]" simboliza fronteira de palabra e "[[:alpha:]]" simboliza calquera caracter alfabético. O asterisco aquí indica calquera número de caracteres de tipo alfabético). Exemplos: "porteyro", "portelo", "porto", "...
- duc{1,2}i - palabras que conteñan "duci" ou "ducci" (o "{1,2}" simboliza un número de caracteres "c" mínimo de 1 e máximo de 2, isto é "c" ou "cc"). Exemplos: "induccionis", "inducimus", "ducium"...
- [[:<:]]spiritus?[[:>:]] - a palabra "spiritu" ou a palabra "spiritus" (o "?" indica unha ou cero aparicións do caracter precedente).
- [[:<:]][mp]adre[[:>:]] - a palabra "madre" ou a palabra "padre" (os corchetes simbolizan calquera dos caracteres que encerran)
- [[:<:]]a[[:alpha:]]a[[:>:]] - palabra de tres letras que empece e acabe por "a"
- [[:<:]]a[[:alpha:]]{2}a[[:>:]] - palabra de catro letras que empece e acabe por "a"
- [[:<:]]a[[:alpha:]]*a[[:>:]] - palabra de duas ou máis letras que empece e acabe por "a"
- [[:<:]]a[[:alpha:]]+a[[:>:]] - palabra de tres ou máis letras que empece e acabe por "a"
Os símbolos máis importantes que se poden utilizar para construír unha expresión regular de tipo POSIX estendido son os seguintes:
Símbolos para caracteres
- . - calquera carácter, incluído o espacio en branco
- [[:alpha:]] - calquera letra
- [[:alnum:]] - letras e números
- [[:digit:]] - calquera díxito
- [[:space:]] - calquera tipo de espacio en branco (espacio, tabulación, salto de liña, salto de páxina...)
- [[:<:]], [[:>:]] - límites de palabra
- [abc] - un dos caracteres da serie, isto é, "a" ou "b" ou "c"
- [^abc] - calquera carácter que non sexa nin "a", nin "b", nin "c"
- [0-9] - calquera número de 0 a 9, isto é, "0", ou "1", ou "2"...
- [a-z] - calquera letra do "a" ao "z", isto é, "a", ou "b", ou "c", ou "d"...
- (abc|xyz) - unha das dúas secuencias de caracteres: "abc" ou "xyz"
Símbolos de repetición
- x+ (unha ou máis aparicións do carácter "x", isto é "x", "xx", "xxx"....)
- x? (ningunha ou unha aparición do carácter "x", isto é "" ou "x")
- x* (ningunha, unha ou máis aparicións do carácter "x", isto é "", "x", "xx", "xxx"....)
- x{n} (o carácter "x" repetido "n" veces seguidas)
- x{m, n} (o carácter "x" repetido entre "m" e "n" veces seguidas)
Seminario de Lingüística Informática / Grupo TALG, Universidade de Vigo, 2006-2018
Deseño e programación web: Xavier Gómez Guinovart