Tesouro do léxico patrimonial galego e português

USC. Instituto da Lingua Galega

Projecto

Finalidade do Tesouro

O Tesouro do léxico patrimonial galego e português é uma iniciativa de universidades brasileiras, galegas e portuguesas coordenada pela Prof. Rosario Álvarez do Instituto da Lingua Galega da Universidade de Santiago de Compostela. Este projecto nasceu com o intuito de constituir um corpus informatizado que reunisse material lexical ligado à cultura tradicional, especialmente aquele que está relacionado com as actividades e saberes que se perderam pelas mudanças culturais e sociais ou que estão em processo de desaparecimento. Além disso, o projecto pretende que todo o material possa ser geograficamente localizado, de modo a facilitar os estudos comparativos sobre a distribuição e difusão das formas lexicais.

O Tesouro pretende, também, contribuir para o estudo do património tradicional dos respectivos países, nas suas vertentes material e imaterial, trazendo um importante contributo aos estudos etnográficos. A cultura e a tecnologia associadas ao mundo rural já desapareceram de boa parte dos nossos países, devido às profundas mudanças económicas e sociais das últimas décadas.

A terceira finalidade do Tesouro é a de proporcionar um corpus lexical amplo, que possa servir de apoio a diversas linhas de investigação, tanto na perspectiva sincrónica como na diacrónica. Para além do óbvio interesse para a dialectologia e a lexicologia, esta aplicação fornece material relevante para numerosas iniciativas noutros campos, especialmente nos da etimologia, fonética e fonologia, lexicografia e morfologia.

Um último objectivo do Tesouro é tornar-se num portal de léxico dialectal que, para além de oferecer uma edição electrónica de vocabulário patrimonial, contenha informação completa e variada, com interesse para os investigadores de diversas disciplinas. Nesse sentido, além da concepção aberta da base de dados, que inclui fotografias, desenhos e informação etnográfica de todo o tipo, também faz parte da aplicação um exaustivo Inventário de fontes dialectais galegas e portuguesas que contém os dados bibliográficos de todas as obras que estudam léxico dialectal nestes domínios, nas suas diferentes perspectivas. Este Inventário permite fazer buscas de diferente tipo (ano, autor, localização, etc.).

Fontes

O Tesouro do léxico patrimonial galego e português incorpora qualquer tipo de obra de conteúdo lexicográfico que contenha material dialectal localizado geograficamente no Brasil, na Galiza ou em Portugal. A base de dados alberga materiais muito heterogéneos, de diferente apresentação, estruturação externa e interna e variação territorial. A partir dos materiais integrados, até agora, no Tesouro, é possível reconhecer três tipos fundamentais de obras:

a) Monografias etnolinguísticas sobre a fala de uma localidade ou território de extensão reduzida. Estas obras foram concebidas, principalmente, como trabalhos académicos dirigidos que abordavam o estudo da linguagem de uma pequena área, normalmente uma freguesia ou um concelho.

b) Atlas linguísticos e inquéritos dialectais. Este segundo conjunto de obras inclui materiais recolhidos em trabalho de campo numa ampla rede de pontos distribuída ao longo de um ou vários dos países que integram o Tesouro.

c) Outras obras com léxico dialectal. No âmbito do galego e do português europeu existem numerosos trabalhos que estudam diversos aspectos da cultura local, seja do ponto de vista onomasiológico, seja do etnolinguístico. Estes trabalhos costumam apresentar-se como artigos em revistas científicas ou como monografias.

Tratamento dos datos

Desde que se começou a delinear o projecto, os investigadores consideraram que a aplicação informática que desse acesso ao Tesouro do léxico patrimonial galego e português devia incluir toda a informação contida nas obras originais e, ao mesmo tempo, permitir a sua recuperação de um modo muito ágil e produtivo, consoante as diferentes necessidades dos utilizadores.

Apesar da heterogeneidade dos materiais dificultar este trabalho de organização e classificação da informação, a estrutura da base de dados é suficientemente completa e flexível de modo a facilitar a integração de toda a informação contida nas obras.

A seguir, apresenta-se uma breve descrição dos principais campos que constituem a estrutura da base de dados do Tesouro e que são utilizados para normalizar e ordenar a informação:

a) Variante. Trata-se da forma que aparece abrindo a entrada em cada um dos glossários introduzidos no Tesouro. Respeita-se escrupulosamente a variante ortográfica fornecida pelo autor, já que costuma transmitir informação interessante. Quando, na obra original, a forma recolhida se encontra unicamente em transcrição fonética, cria-se a variante adequada, em grafia convencional correspondente.

b) Transcrição fonética. Embora o projecto se centre no aspecto lexicográfico, considerou-se interessante conservar a informação relevante de tipo fonético, quando esta aparece nas obras tratadas. As convenções utilizadas para representar a pronúncia das palavras são muito diferentes, pelo que se considerou imprescindível unificar e adaptar as transcrições fonéticas recorrendo aos símbolos do Alfabeto Fonético Internacional.

c) Categoria gramatical. Mantém-se, exactamente, a categoria que aparece na fonte, com a sua formulação original. Deste modo, uma mesma palavra pode estar categorizada como s, sm, subst, subst m, etc. Para ajudar na classificação e ordenação dos diferentes materiais, estabeleceu-se também uma categoria normalizada, em função do lema atribuído, que se introduz num campo específico da base de dados.

d) Lema. As diferentes variantes fonéticas e gráficas recolhidas nas obras remetem para um único lema que as agrupa e permite um acesso rápido a todas elas. O lema é específico para cada uma das variedades linguísticas (galego, português europeu e português do Brasil); por exemplo, as variantes dereito, dreito, direito são agrupadas em galego sob o lema dereito e em português sob o lema direito. As formas constituídas por morfemas derivativos consideram-se como lemas independentes (queixo, queixelo, queixalem>).

e) Exemplos. Em vários casos, as obras oferecem exemplos de uso das formas definidas. Às vezes, fornece-se informação de tipo gramatical (regências), noutros casos indicam-se colocações e, com muita frequência, referem-se versos, provérbios ou outras construções que contêm a dita palavra.

f) Remissões. É bastante frequente que, em determinada entrada de uma obra, apareçam remissões para outras formas relacionadas que figuram na mesma obra. Estas remissões servem para relacionar duas variantes de uma mesma palavra muito próximas formalmente (albitanas/albitanes); noutras ocasiões, as remissões marcam uma relação de significado, como hipónimo/heterónimo (jugo ~ tchabielha, canzile, molida, solada, solinho, temoeiro, canga...); outras vezes, estas indicações servem para relacionar várias formas, consideradas secundárias, com uma entrada primária que contém agrupada toda a informação sobre os significados, os exemplos e as indicações complementares.

g) Definições. Este campo está reservado à recolha da informação semântica, que se considera a parte fundamental das obras compiladas. A denominação definição tem de ser entendida em sentido amplo, pois inclui não só as componentes que normalmente se perceberiam como definição, em sentido estrito, num dicionário, mas também outras que podem interpretar-se como explicação do significado da forma correspondente. Neste campo, reúnem-se também informações que não têm lugar noutras secções mais específicas: dados que figuram nas notas de rodapé, indicações geográficas sobre o lugar em que se recolheu a variante ou referências sobre se a forma aparece ou não nos dicionários de uso corrente.

h) Classificação semântica. Ao desenhar o projecto, considerou-se que seria imprescindível fazer uma classificação semântica de todos os materiais introduzidos na base de dados. Esta classificação possibilita recuperar a informação de maneira agrupada por campos semânticos, de modo a permitir que os utilizadores possam obter uma listagem de todas as palavras ligadas a um mesmo grupo semântico (o tempo meteorológico, tipos de terras de cultivo, plantas e árvores, a habitação e as construções anexas, etc.). Com esta finalidade, criou-se, com base em alguns trabalhos anteriores, um esquema de classificação semântica básico, de doze grandes tipos, com subdivisões no seu interior. Deve ter-se em linha de conta que a atribuição dos classificadores semânticos nas obras que apresentam uma ordenação onomasiológica toma sempre, como guia e ponto de partida, a classificação estabelecida pelos seus autores, o que explica algumas divergências na classificação semântica de um mesmo vocábulo em diferentes obras.

i) Referência geográfica. Uma das condições que os materiais introduzidos na base de dados do Tesouro devem cumprir é a de estarem localizados geograficamente. Este requisito exige que a informação lexicográfica esteja atribuída a uma localidade, a uma freguesia, a um concelho ou a alguma outra entidade geográfica referenciável. Entre as duas possibilidades de indicação da procedência das formas, ponto ou área, escolheu-se a segunda, já que facilita a representação cartográfica e permite observar, de modo rápido, a distribuição das formas lexicais nos países estudados no Tesouro. Para conservar as diferenças de extensão dos três territórios, decidiu-se empregar diferentes entidades administrativas para a representação dos dados. Para a Galiza e Portugal considera-se o concelho como entidade de referência. Para o Brasil utiliza-se a mesorregião, uma divisão administrativa que reúne vários municípios com características económicas e sociais similares.

j) Fotografias e desenhos. Muitos dos materiais recolhidos para fazerem parte do Tesouro contêm informação gráfica que serve para ilustrar os objectos que se descrevem e definem. Estas imagens estão também incluídas na base de dados e podem ser consultadas ao mesmo tempo que se acede à informação textual.

Ajudas e financiamento

2017-2020

Fundo Europeu de Desenvolvimento Regional FEDER a través do Programa INTERREG V A Espanha Portugal (POCTEP) 2014-2020, no âmbito do projeto Patrimonio léxico da Gallaecia. Esta ação é integrada no GEOARPAD-IV. Património cultural da Eurorregião Galiza-Norte de Portugal: Valorização e Inovação.

2010-2012

Ministerio de Ciencia e Innovación (Espanha), FFI2009-12110.

Fundação para a Ciência e a Tecnologia. Ministério de Ciência, Tecnologia e Ensino Superior (Portugal). PTDC/CLE-LIN/102650/2008.

2009

AECID (Agencia Española de Cooperación Internacional para el Desarrollo). Ministerio de Asuntos Exteriores y Cooperación (Espanha) 2009.

2007-2011

Axudas de consolidación e estruturación de unidades de investigación do SUG, Secretaría Xeral de Universidades, Consellería de Educación e Ordenación Universitaria (Galiza).