CORGA

O Corpus de Referencia do Galego Actual (CORGA) é unha colección de documentos que se almacenan en formato electrónico na que se integran distintos tipos de textos representativos do uso da lingua galega actual: xornais, semanarios, revistas, blogs, ensaios e textos de ficción (novelas, relatos curtos, obras de teatro e guións televisivos). Os documentos codifícanse na linguaxe estándar XML (eXtensible Markup Language) e abranguen cronoloxicamente dende 1975 ata a actualidade. O corpus está dispoñible para a súa consulta en liña no enderezo http://corpus.cirp.gal/corga, sendo o acceso a el totalmente libre e de balde.

A partir da versión 3.0 a orixe dos documentos do CORGA xa non é só escrita, senón que se irán incluíndo paulatinamente transcricións ortográficas, en principio de programas radiofónicos, por decenios dende a actualidade cara atrás, co fin de darlle cabida tamén á oralidade e ampliar o abano de estudos que se poden realizar a partir do corpus. Nestas transcricións alíñase o texto coa voz, de xeito que no sistema de recuperación de información o usuario ten non só a posibilidade de realizar pesquisas en textos orais, senón tamén a posibilidade, se o desexa, de escoitar o fragmento de audio que corresponde ao contexto dos resultados obtidos.

Os textos que forman parte do CORGA foron seleccionados de acordo con tres criterios de clasificación, independentes entre si: tipo de texto, data e área temática. A distribución realizouse por lustros, procurando darlle maior representatividade aos períodos máis recentes:

Data
1975-1979
1980-1984
1985-1989
1990-1994
1995-1999
2000-2004
2005-2009
2010-2014
2015-2019

Tipo de Texto
Xornal
Revista
Ensaio
Novela
Relato curto
Teatro
Guión
Blog

Áreas temáticas
	Economía e política	Cultura e artes	Ciencias sociais	Ciencias e tecnoloxía	Outros
Subáreas temáticas	Política	Audiovisuais e espectáculo	Lingua	Sanidade	Deportes
	Desenvolvemento e infraestruturas	Medios de comunicación	Literatura	Bioloxía, botánica, ecoloxía, zooloxía e paleontoloxía	Turismo
	Emprego, traballo, industria	Artes gráficas e plásticas	Relixión	Tecnoloxía e industria	Afeccións e asuntos domésticos
	Sector servizos	Patrimonio, arquitectura, arquivos	Historia e xeografía	Medio, astronomía e xeoloxía	Actualidade, sucesos, homenaxes, inauguracións
	Explotación primaria		Civilización, etnoloxía, arqueoloxía e antropoloxía	Matemáticas e estatística	Biografía
	Economía, facenda, bolsa		Pensamento, ética e filosofía	Química, bioquímica e farmacia	Nota prologal
	Ordenación sanitaria		Socioloxía e psicoloxía
	Xustiza, lexislación, dereito		Erotismo e sexoloxía
	Asuntos sociais		Astroloxía e ocultismo
	Ordenación académica

Ademais de polos criterios anteriores, os documentos clasifícanse tendo en conta a súa orixe (se é escrita ou procede dunha transcrición), o bloque no que se agrupa o texto escrito (se se integra na ficción ou pola contra se cataloga como non ficción), o xénero ao que se remite (xornalístico, ensaístico, novelístico ou dramático) e, finalmente, os subtipos nos que se poden encadrar os documentos (xornal, revista, blog, novela, relato curto, obra de teatro, guión, divulgación, libro de texto, memoria, artigo científico, tertulia, informativo, programa cultural, entrevista, conferencia, publicidade ou variedades).

Para facilitar a recuperación de información e poder realizar pesquisas nas que a abstracción lingüística exerce un papel fundamental, o corpus enriqueceuse coa etiquetaxe automática de todos os documentos que o conforman empregando o Etiquetador/Lematizador do Galego Actual (XIADA), desenvolvido conxuntamente polo Centro Ramón Piñeiro para a investigación en humanidades e o grupo COLE das universidades da Coruña e Vigo.

Deste xeito a mera representación gráfica non restrinxe a potencialidade das consultas e pódese buscar tanto, con ou sen expresións regulares, por palabra completa, parte dunha palabra ou varias palabras ou partes, contiguas ou non, como por categoría gramatical, trazos morfolóxicos ou lemas, podendo empregar, ademais, como parámetros selectores os diversos criterios de clasificación textual, os cales poden combinarse entre si en función das necesidades/desexos do usuario: período temporal, tipo de documento, área temática, parte do documento etc.

Para máis información sobre a codificación e estruturación dos textos, así como unha descrición detallada das posibilidades que ofrece a presente aplicación para a recuperación e extracción de información, pode consultarse a documentación explicativa recollida na pestana Guía: Guía de uso, Codificación e estruturación, Etiquetas de codificación e Etiquetario morfosintáctico.