Corpus de Referencia do Galego Actual

O Corpus de Referencia do Galego Actual (CORGA) é unha colección de documentos que se almacenan en formato electrónico na que se integran distintos tipos de textos representativos do uso da lingua galega actual: xornais, semanarios, revistas, blogs, ensaios e textos de ficción (novelas, relatos curtos, obras de teatro e guións televisivos). Os documentos codifícanse na linguaxe estándar XML (eXtensible Markup Language) e abranguen cronoloxicamente dende 1975 ata a actualidade. O corpus está dispoñible para a súa consulta en liña no enderezo http://corpus.cirp.gal/corga, sendo o acceso a el totalmente libre e de balde.

A partir da versión 3.0 a orixe dos documentos do CORGA xa non é só escrita, senón que se irán incluíndo paulatinamente transcricións ortográficas, en principio de programas radiofónicos, por decenios dende a actualidade cara atrás, co fin de darlle cabida tamén á oralidade e ampliar o abano de estudos que se poden realizar a partir do corpus. Nestas transcricións alíñase o texto coa voz, de xeito que no sistema de recuperación de información o usuario ten non só a posibilidade de realizar pesquisas en textos orais, senón tamén a posibilidade, se o desexa, de escoitar o fragmento de audio que corresponde ao contexto dos resultados obtidos.

Os textos que forman parte do CORGA foron seleccionados de acordo con tres criterios de clasificación, independentes entre si: tipo de texto, data e área temática. A distribución realizouse por lustros, procurando darlle maior representatividade aos períodos máis recentes:

Data
1975-1979
1980-1984
1985-1989
1990-1994
1995-1999
2000-2004
2005-2009
2010-2014
2015-2019
Tipo de Texto
Xornal
Revista
Ensaio
Novela
Relato curto
Teatro
Guión
Blog
Áreas temáticas
Economía e política Cultura e artes Ciencias sociais Ciencias e tecnoloxía Outros
Subáreas temáticas Política Audiovisuais e espectáculo Lingua Sanidade Deportes
Desenvolvemento e infraestruturas Medios de comunicación Literatura Bioloxía, botánica, ecoloxía, zooloxía e paleontoloxía Turismo
Emprego, traballo, industria Artes gráficas e plásticas Relixión Tecnoloxía e industria Afeccións e asuntos domésticos
Sector servizos Patrimonio, arquitectura, arquivos Historia e xeografía Medio, astronomía e xeoloxía Actualidade, sucesos, homenaxes, inauguracións
Explotación primaria Civilización, etnoloxía, arqueoloxía e antropoloxía Matemáticas e estatística Biografía
Economía, facenda, bolsa Pensamento, ética e filosofía Química, bioquímica e farmacia Nota prologal
Ordenación sanitaria Socioloxía e psicoloxía
Xustiza, lexislación, dereito Erotismo e sexoloxía
Asuntos sociais Astroloxía e ocultismo
Ordenación académica

Ademais de polos criterios anteriores, os documentos clasifícanse tendo en conta a súa orixe (se é escrita ou procede dunha transcrición), o bloque no que se agrupa o texto escrito (se se integra na ficción ou pola contra se cataloga como non ficción), o xénero ao que se remite (xornalístico, ensaístico, novelístico ou dramático) e, finalmente, os subtipos nos que se poden encadrar os documentos (xornal, revista, blog, novela, relato curto, obra de teatro, guión, divulgación, libro de texto, memoria, artigo científico, tertulia, informativo, programa cultural, entrevista, conferencia, publicidade ou variedades).

Para facilitar a recuperación de información e poder realizar pesquisas nas que a abstracción lingüística exerce un papel fundamental, o corpus enriqueceuse coa etiquetaxe automática de todos os documentos que o conforman empregando o Etiquetador/Lematizador do Galego Actual (XIADA), desenvolvido conxuntamente polo Centro Ramón Piñeiro para a investigación en humanidades e o grupo COLE das universidades da Coruña e Vigo.

Deste xeito a mera representación gráfica non restrinxe a potencialidade das consultas e pódese buscar tanto, con ou sen expresións regulares, por palabra completa, parte dunha palabra ou varias palabras ou partes, contiguas ou non, como por categoría gramatical, trazos morfolóxicos ou lemas, podendo empregar, ademais, como parámetros selectores os diversos criterios de clasificación textual, os cales poden combinarse entre si en función das necesidades/desexos do usuario: período temporal, tipo de documento, área temática, parte do documento etc.

Para máis información sobre a codificación e estruturación dos textos, así como unha descrición detallada das posibilidades que ofrece a presente aplicación para a recuperación e extracción de información, pode consultarse a documentación explicativa recollida na pestana Guía: Guía de uso, Codificación e estruturación, Etiquetas de codificación e Etiquetario morfosintáctico.