TILG - Tesouro Informatizado da Lingua Galega

Presentaci�n

O Tesouro Informatizado da Lingua Galega ideouse basicamente como instrumento axuliar para a elaboraci�n dun dicionario. � ben sabido que, a�nda que a lexicograf�a galega moderna ten unha tradici�n xa longa (o primeiro dicionario impreso � de 1863) e deu como resultado algunhas obras destacables, o certo � que a maior�a delas se realizaron tomando en consideraci�n fundamentalmente o galego dialectal, e en moita menor medida o literario. � verdade que desde Valladares se aboan voces en tal ou cal pasaxe dun autor, pero est�n nunha proporci�n m�nima en comparanza coas voces de procedencia dialectal ou coas que proceden da introspecci�n dos propios autores dos dicionarios. Desta maneira, no galego literario existen innumerables voces e acepci�ns que nunca foron recollidas nos dicionarios. Isto xa xustificar�a en por si a fabricaci�n dun corpus, pero ademais na lexicograf�a moderna os dicionarios de referencia, e non s� os hist�ricos, adoitan inclu�r diversas informaci�ns imprescindibles para trazar axeitadamente o perfil sem�ntico e combinatorio de cada palabra, as� como datos sobre a s�a frecuencia, cronolox�a, etc. Este � o contexto en que se abordou a realizaci�n do TILG, que nun principio se chamou Base de datos lexicogr�fica para un dicionario da lingua galega.

Ata o ano 1985 vi�a compil�ndose no ILG un tesouro lexicogr�fico, baseado en materiais de recolleita dialectal e papeletizado polo sistema tradicional de fichas de papel ordenadas en caix�ns. Cando nos anos oitenta comezaron a popularizarse a inform�tica e alg�ns programas de concordancias que facilitaban moito o baleirado de textos escritos, xurdiu a idea de constru�r un ficheiro electr�nico que permitise aproveitar as vantaxes que ofrec�an as novas tecnolox�as. En calquera caso, no ano 1985 non constitu�a xa ningunha novidade a compilaci�n dunha base destas caracter�sticas. As�, en Francia elabor�rase unha para o Tr�sor de la langue fran�aise al� polos anos 1960 (daquela usando fichas perforadas). Noutros �mbitos m�is pr�ximos ao noso, na d�cada de 1980 estaban en proceso de elaboraci�n ficheiros electr�nicos para o euskera e o catal�n, dirixidos, respectivamente, polos profesores Ibon Sarasola (da Academia Vasca) e Joaquim Rafel (do Institut d' Estudis Catalans). O contacto cos seus equipos permitiunos aproveitar a s�a experiencia � hora de decidirmos diversos aspectos en relaci�n co m�todo de codificado dos textos, as� como acerca do seu procesamento inform�tico.

A manipulaci�n dun texto desde o papel impreso ata o resultado final en forma de base de datos lematizada esixe bastantes operaci�ns, comezando por transformar o texto a un formato electr�nico mediante o seu escaneado e posterior reco�ecemento �ptico de caracteres (ag�s cando a mala calidade da imaxe obriga ao picado manual do escrito). A�nda despois de estar o texto en formato electr�nico hai varios procesos que realizar, entre eles o de elaborar unha edici�n especial para a lectura pola m�quina.

Unha vez posto o texto en formato electr�nico, o programa realiza de xeito autom�tico a maior parte do procesamento dos datos, excepto cubrir os campos correspondentes ao lema e � categor�a gramatical. Hoxe hai etiquetadores autom�ticos que poden fabricar os lemas e as categor�as, pero para unha lingua escasamente normativizada como � o galego xeran moitos problemas, xa que �s ambig�idades que presenta calquera lingua, xa de por si dif�ciles de resolver de maneira autom�tica, hai que engadir unha infinidade de formas imprevisibles debido � fronde de variantes morfol�xicas e fon�ticas, �s veces dialectais, e non poucas veces froito de prexu�zos puristas e mesmo hiperpuristas do escritor. Un lematizador autom�tico pode asignarlle a calquera forma dun texto a forma non marcada (aquela pola que a buscariamos nun dicionario); pero non pode agrupar variantes non morfol�xicas. Dito doutro xeito, a azucre e azucres pode fabricarlles un lema azucre (e indicar que a primeira forma � singular e a segunda plural), pero non pode pasar de a�. Iso (� parte de que cando comezamos os programas de etiquetaci�n a�nda estaban en ensaio) foi o que nos decidiu a fabricar un programa que nos axudase a encher as columnas de lema e categor�a de maneira semi-autom�tica, desambiguando cun s� golpe de tecla, de xeito que quedasen cubertos os baleiros desas columnas sen necesidade de mecanografar letra por letra o seu contido. Desta maneira podemos recoller baixo un mesmo lema todas as variantes morfol�xicas e fon�ticas dunha mesma palabra. Se abrimos o TILG polo lema azucre rexistramos as seguintes 8 variantes (cos seus plurais, se os hai): as�car, asucre, az�car, azucr�, azucre, sucre, z�caro e zucre. O noso programa agr�paas todas baixo a forma can�nica (a coincidente coa can�nica actual) azucre. Este modo de operar ten o inconveniente de que esixe moito tempo, pero a cambio ofrece a vantaxe de permitir logo recuperar de maneira conxunta todas as variantes dunha mesma forma l�xica.

Todo o proceso aqu� sumariamente descrito requiriu moito esforzo en medios humanos e econ�micos. Os econ�micos foron fornecidos de maneira ininterrompida pola Direcci�n Xeral de Pol�tica Ling��stica (e logo da Secretar�a Xeral de Pol�tica Ling��stica) da Xunta de Galicia. Os medios humanos foron e son o persoal contratado con cargo ao proxecto e outros colaboradores do centro.

Como se indicou m�is arriba, a base de datos estaba pensada inicialmente para ser usada como material para un dicionario. Cando se comezou, nin se sospeitaba que poder�a ser outra cousa que un ficheiro, alternativo aos tradicionais, con poucas utilidades m�is al� daquela para a que fora dese�ada, e consultable s� in situ. Pouco tempo andado aquelas limitaci�ns de utilizaci�n e de localizaci�n desapareceron e adaptouse para poder ser consultada para numerosas finalidades e de maneira instant�nea desde calquera parte do mundo.

A necesidade de ampliar a�nda m�is as s�as posibilidades como recurso ling��stico conduciu � s�a inclusi�n na rede de Recursos Integrados da Lingua Galega (RILG) a partir de 2006. Para isto, o corpus foi actualizado en colaboraci�n co Seminario de Ling��stica Inform�tica da Universidade de Vigo. Finalmente, a versi�n que agora se ofrece � o resultado da revisi�n e actualizaci�n do proxecto, cunha nova interface de consulta e con algunhas novas ferramentas, a cargo do equipo responsable. Nos seguintes gr�ficos ofr�cense alg�ns datos acerca da s�a composici�n e distribuci�n por per�odos cronol�xicos.

Lemas por per�odo cronol�xico

N�mero total de lemas: 95.409

O gr�fico mostra o n�mero de lemas rexistrados nos distintos treitos cronol�xicos. Para cada un deles ofr�cense desagregadas as cifras correspondentes aos lemas novos (rexistrados por primeira vez nese per�odo) e aos xa documentados nos per�odos precedentes.

Distribuci�n temporal de palabras

Distribuci�n temporal de obras

N�mero total de palabras: 26.253.108

N�mero total de obras: 1.958