O núcleo do proxecto confórmano os textos da Galicia e do Portugal medievais subagrupados en córpora distintos establecidos con criterio glotolóxico (corpus do galego, corpus do portugués, corpus do latín de Galicia e Portugal, corpus do castelán de Galicia). Estas cinco unidades forman conxuntamente o proxecto Tesouro Medieval Galego‑Portugués. O TMILG é unha das tres pezas da parte galega, denominada Xelmírez: Corpus Lingüístico da Galicia Medieval. Neste complexo xeral agrúpanse varios subproxectos que o equipo de traballo vén realizando no eido da lingüística de corpus desde o ano 1992 no Instituto da Lingua Galega:
É, dentro do Xelmírez, a liña máis avanzada e de maior proxección externa. Trátase do corpus das obras e coleccións documentais redactadas en romance galego na época medieval. Co TILG (Tesouro Informatizado da Lingua Galega, dirixido por Antón Santamarina) forma o corpus histórico do Instituto da Lingua Galega.
Explícase máis polo miúdo no apartado “O corpus”.
Os traballos de preparación dos textos de coleccións documentais plurilingües foron achegando ao Xelmírez un importante número de documentos ‑e obras‑ labrados en latín. Na actualidade a cifra ronda as 5.000 unidades textuais, o que fai do TMILL-G un corpus bastante representativo do latín medieval galaico. Dada a existencia desde hai moitos anos do CODOLGA (Corpus Documentale Latinum Gallaeciae) e a posiblidade de consultalo on line, non é previsible a posta en rede do TMILL. Mais as facilidades que reporta contar con tantos documentos latinos homologados na súa etiquetación aos do TMILG fan imprescindible continuar arrequentando as súas bases textuais. Sen eles non sería posible avanzar, como se está a facer, nos traballos propios de carácter onomástico (nestes momentos só toponímico) e de sociolingüística histórica (emerxencia do romance fronte ao latín e posterior decadencia do galego fronte ao castelán).
A presenza de documentos labrados en castelán entre a documentación procesada estase aproveitando para ir construíndo no ILG un corpus do castelán de Galicia que sexa abranxente de toda a historia. Na actualidade son 2.500 os documentos preparados. No futuro ampliaremos o arco cronolóxico, comezando pola Idade Moderna, na procura dun subcorpus en castelán que vai permitir encher algunhas lagoas ‑sobre todo léxicas e onomásticas, pero tamén fonéticas e morfosintácticas‑ ás que condena a precariedade do galego escrito no período medio da nosa historia. Está previsto que nese momento o TMILC pase a chamarse CHCG (Corpus Histórico do Castelán de Galicia).
Neste corpus recóllense as obras e coleccións documentais redactadas en romance portugués na Idade Media.
Xa nos seus inicios, a comezos dos anos 90, o equipo de traballo marcouse o obxectivo de construír un corpus que comprendese textos ao norte e ao sur do río Miño e da franxa occidental de Asturias, León e Zamora. En diferentes momentos, como resposta a necesidades concretas dos traballos do equipo na altura, fóronse informatizando e etiquetando obras do Portugal medieval de tipoloxía variada. Na actualidade son máis de 100 as obras que, en diferente fase de preparación, están ao dispor do equipo. Entre as máis significativas pódense citar: Livros de Linhagens, Tempos dos preitos, Livro de bens de dom João de Portel, Crónica Geral de 1344, Livro de Joseph de Arimateia, Arte de bem cavalgar toda sela, Demanda do Santo Graal, Foros de Castelo Rodrigo, Foro Real, Primeira Partida, Livro das aves, Cancioneiro Geral de Garcia de Resende, obras de Gil Vicente, obras de Fernão Lopes, Documentos de Clarinda Maia, Documentos de Ana Maria Martins, etc.
A codificación empregada é a mesma do TMILG e a súa posta en rede está condicionada pola precariedade da situación financeira. Neste sentido acabamos de abrir unha colaboración co equipo dos Profesores João Malaca Casteleiro (Academia das Ciências de Lisboa) e Maria Francisca Xavier (Centro de Linguística da Universidade Nova de Lisboa), que esperamos acabe dando lugar ao desexable ‑e esperado‑ corpus medieval conxunto galego-portugués. A colaboración ampliarase no futuro á elaboración do Dicionario medieval galego-portugués, botado xa andar polo equipo lisboeta co seu Dicionário do Português Medieval e que deberá ser redefinido no futuro para axeitalo ao novo horizonte.
Neste corpus recóllense as coleccións documentais redactadas en latín na época medieval. É o que presenta un desenvolvemento menor.
O avance significativo no arrequenteamento destes cinco córpora supón unha plataforma na que se apoian outras liñas de traballo e proxectos concretos do equipo de investigación: