O Corpus de Referencia do Galego Actual (CORGA) é unha colección de documentos que se almacenan en formato electrónico na que se integran distintos tipos de textos representativos do uso da lingua galega actual: xornais, semanarios, revistas, blogs, ensaios e textos de ficción (novelas, relatos curtos, obras de teatro e guións televisivos). Os documentos codifícanse na linguaxe estándar XML (eXtensible Markup Language) e abranguen cronoloxicamente dende 1975 ata a actualidade. O corpus está dispoñible para a súa consulta en liña no enderezo http://corpus.cirp.gal/corga, sendo o acceso a el totalmente libre e de balde.
A partir da versión 3.0 a orixe dos documentos do CORGA xa non é só escrita, senón que se irán incluíndo paulatinamente transcricións ortográficas, en principio de programas radiofónicos, por decenios dende a actualidade cara atrás, co fin de darlle cabida tamén á oralidade e ampliar o abano de estudos que se poden realizar a partir do corpus. Nestas transcricións alíñase o texto coa voz, de xeito que no sistema de recuperación de información o usuario ten non só a posibilidade de realizar pesquisas en textos orais, senón tamén a posibilidade, se o desexa, de escoitar o fragmento de audio que corresponde ao contexto dos resultados obtidos.
Os textos que forman parte do CORGA foron seleccionados de acordo con tres criterios de clasificación, independentes entre si: tipo de texto, data e área temática. A distribución realizouse por lustros, procurando darlle maior representatividade aos períodos máis recentes:
Data |
---|
1975-1979 |
1980-1984 |
1985-1989 |
1990-1994 |
1995-1999 |
2000-2004 |
2005-2009 |
2010-2014 |
2015-2019 |
Tipo de Texto |
---|
Xornal |
Revista |
Ensaio |
Novela |
Relato curto |
Teatro |
Guión |
Blog |
Áreas temáticas | |||||
---|---|---|---|---|---|
Economía e política | Cultura e artes | Ciencias sociais | Ciencias e tecnoloxía | Outros | |
Subáreas temáticas | Política | Audiovisuais e espectáculo | Lingua | Sanidade | Deportes |
Desenvolvemento e infraestruturas | Medios de comunicación | Literatura | Bioloxía, botánica, ecoloxía, zooloxía e paleontoloxía | Turismo | |
Emprego, traballo, industria | Artes gráficas e plásticas | Relixión | Tecnoloxía e industria | Afeccións e asuntos domésticos | |
Sector servizos | Patrimonio, arquitectura, arquivos | Historia e xeografía | Medio, astronomía e xeoloxía | Actualidade, sucesos, homenaxes, inauguracións | |
Explotación primaria | Civilización, etnoloxía, arqueoloxía e antropoloxía | Matemáticas e estatística | Biografía | ||
Economía, facenda, bolsa | Pensamento, ética e filosofía | Química, bioquímica e farmacia | Nota prologal | ||
Ordenación sanitaria | Socioloxía e psicoloxía | ||||
Xustiza, lexislación, dereito | Erotismo e sexoloxía | ||||
Asuntos sociais | Astroloxía e ocultismo | ||||
Ordenación académica |
Ademais de polos criterios anteriores, os documentos clasifícanse tendo en conta a súa orixe (se é escrita ou procede dunha transcrición), o bloque no que se agrupa o texto escrito (se se integra na ficción ou pola contra se cataloga como non ficción), o xénero ao que se remite (xornalístico, ensaístico, novelístico ou dramático) e, finalmente, os subtipos nos que se poden encadrar os documentos (xornal, revista, blog, novela, relato curto, obra de teatro, guión, divulgación, libro de texto, memoria, artigo científico, tertulia, informativo, programa cultural, entrevista, conferencia, publicidade ou variedades).
Para facilitar a recuperación de información e poder realizar pesquisas nas que a abstracción lingüística exerce un papel fundamental, o corpus enriqueceuse coa etiquetaxe automática de todos os documentos que o conforman empregando o Etiquetador/Lematizador do Galego Actual (XIADA), desenvolvido conxuntamente polo Centro Ramón Piñeiro para a investigación en humanidades e o grupo COLE das universidades da Coruña e Vigo.
Deste xeito a mera representación gráfica non restrinxe a potencialidade das consultas e pódese buscar tanto, con ou sen expresións regulares, por palabra completa, parte dunha palabra ou varias palabras ou partes, contiguas ou non, como por categoría gramatical, trazos morfolóxicos ou lemas, podendo empregar, ademais, como parámetros selectores os diversos criterios de clasificación textual, os cales poden combinarse entre si en función das necesidades/desexos do usuario: período temporal, tipo de documento, área temática, parte do documento etc.
Para máis información sobre a codificación e estruturación dos textos, así como unha descrición detallada das posibilidades que ofrece a presente aplicación para a recuperación e extracción de información, pode consultarse a documentación explicativa recollida na pestana Guía: Guía de uso, Codificación e estruturación, Etiquetas de codificación e Etiquetario morfosintáctico.