Corpus de Referencia do Galego Actual

ISSN: 1988-1541
Versión: 3.0

O Corpus de Referencia do Galego Actual (CORGA) é un corpus documental integrado por distintos tipos de textos representativos da lingua galega actual que están codificados na linguaxe estándar XML (eXtensible Markup Language) e que abranguen cronoloxicamente dende 1975 ata a actualidade. A codificación practicada afecta principalmente á información bibliográfica e á estruturación do documento e posibilita realizar consultas, con ou sen expresións regulares, por palabra completa, parte dunha palabra ou varias palabras ou partes, contiguas ou non, segundo diversos criterios que poden combinarse dependendo das necesidades do usuario: período temporal, área temática, tipo de documento, parte do documento etc.

Nesta versión o corpus enriqueceuse coa etiquetaxe automática de todos os documentos que o integran, e mais coa incorporación de dúas ducias de transcricións ortográficas de programas de radio da década dos 90 nas que se aliña o texto coa voz, co que na recuperación de información é posible reproducir o fragmento sonoro que corresponde ao resultado que se amosa.

A presente aplicación unifica os dous sistemas de consulta en liña dispoñibles anteriormente (o do CORGA e o do CORGAetq) nun único sistema que dá cabida ás diferentes aproximacións de busca: consulta por palabras ortográficas, elementos gramaticais, clases de palabras, etiquetas ou lemas, tanto no subcorpus desambiguado manualmente como no CORGA etiquetado automaticamente.

Data de actualización: 9/10/2017 (36,8 millóns de palabras)

Ademais de agradecer a todos os responsables a disposición pública de material propio de Internet como son os blogs ou xornais dixitais de acceso libre, agradecemos a colaboración das seguintes editoriais por cedérmonos os documentos que se lles solicitan en formato electrónico: 3C3 EDITORES, AUGA EDITORA, CONSELLO DA CULTURA GALEGA, EDICIÓNS BARBANTESA, EDICIÓNS EMBORA, EDICIÓNS GALEBOOK, EDICIÓNS LAIOVENTO, EDICIÓNS POSITIVAS, EDICIÓNS XERAIS DE GALICIA, EDITORIAL GALAXIA, ESTALEIRO EDITORA, FOLLAS NOVAS EDICIÓNS, MORGANTE, SERMOS GALIZA, SERVIZO PUBLICACIÓNS UDC, SERVIZO PUBLICACIÓNS USC e URCO EDITORA.

Así mesmo, manifestamos o noso agradecemento á CRTVG pola cesión dos guións de series televisivas que se inclúen no corpus.

El Corpus de Referencia del Gallego Actual (CORGA) es un corpus documental integrado por distintos tipos de textos representativos de la lengua gallega actual que están codificados en el lenguaje estándar XML (eXtensible Markup Language) y que abarcan cronológicamente desde 1975 hasta la actualidad. La codificación practicada afecta principalmente a la información bibliográfica y a la estructuración del documento y posibilita realizar consultas, con o sin expresiones regulares, por palabra completa, parte de una palabra o varias palabras o partes, contiguas o no, según diversos criterios que pueden combinarse en función de las necesidades del usuario: período temporal, área temática, tipo de documento, parte del documento, etc.

En esta versión el corpus se enriqueció con el etiquetado automático de todos los documentos que lo integran, y con la incorporación de dos docenas de transcripciones ortográficas de programas de radio de la década de los 90 en las que se alinea el texto con la voz, con lo que en la recuperación de información es posible reproducir el fragmento sonoro que corresponde al resultado que se muestra.

La presente aplicación unifica los dos sistemas de consulta en línea disponibles anteriormente (el del CORGA y el del CORGAetq) en un único sistema que da cabida a las diferentes aproximaciones de búsqueda: consulta por palabras ortográficas, elementos gramaticales, clases de palabras, etiquetas o lemas, tanto en el subcorpus desambiguado manualmente como en el CORGA etiquetado automáticamente.

Fecha de actualización: 9/10/2017 (36,8 millones de palabras)

Además de agradecer a todos los responsables la disposición pública de material propio de Internet como son los blogs o periódicos digitales de acceso libre, agradecemos la colaboración de las siguientes editoriales por cedernos los documentos que se les solicitan en formato electrónico: 3C3 EDITORES, AUGA EDITORA, CONSELLO DA CULTURA GALEGA, EDICIÓNS BARBANTESA, EDICIÓNS EMBORA, EDICIÓNS GALEBOOK, EDICIÓNS LAIOVENTO, EDICIÓNS POSITIVAS, EDICIÓNS XERAIS DE GALICIA, EDITORIAL GALAXIA, ESTALEIRO EDITORA, FOLLAS NOVAS EDICIÓNS, MORGANTE, SERMOS GALIZA, SERVIZO PUBLICACIÓNS UDC, SERVIZO PUBLICACIÓNS USC y URCO EDITORA.

Asimismo, manifestamos nuestro agradecimiento a la CRTVG por la cesión de los guiones de series televisivas que se incluyen en el corpus.

The Corpus de Referencia do Galego Actual (CORGA) is a documentary corpus including different text-types representative of present-day Galician which are encoded in XML language and cover the period ranging from 1975 to the present day. Codification is mainly applied to bibliographic information and document structure and enables queries with or without regular expressions, by complete word, truncated word, and several words or word-parts, whether they are consecutive or not. Besides, users can restrict searches by applying a number of criteria such as time-span, subject field, type of document, or document area which can be combined depending on their needs.

In its latest version, CORGA has been improved by the automatic tagging of all documents, together with the addition of 24 orthographic transcriptions of radio broadcasts from the 90's where text and voice are aligned. Such alignment allows users to access audio clips matching the written text fragments retrieved as a result of their queries.

The present application conflates the preceding systems for online searching (CORGA and CORGAetq) into a single searching engine which enables different searching modes: retrieval by orthographic word, grammatical element, word class, tag or lemma, both in the manually disambiguated subcorpus and the automatically tagged CORGA.

Last update: 9/10/2017 (36,8 million words)

Besides thanking all individual contributors of linguistic material coming from blogs, free-access newspapers and other online resources, we would like to thank a number of publishing houses for their having granted us access to electronic versions of some of their publications: 3C3 EDITORES, AUGA EDITORA, CONSELLO DA CULTURA GALEGA, EDICIÓNS BARBANTESA, EDICIÓNS EMBORA, EDICIÓNS GALEBOOK, EDICIÓNS LAIOVENTO, EDICIÓNS POSITIVAS, EDICIÓNS XERAIS DE GALICIA, EDITORIAL GALAXIA, ESTALEIRO EDITORA, FOLLAS NOVAS EDICIÓNS, MORGANTE, SERMOS GALIZA, SERVIZO PUBLICACIÓNS UDC, SERVIZO PUBLICACIÓNS USC and URCO EDITORA.

We would also like to extend our thankfulness to CRTVG for the cession of the TV series scripts included in the corpus.

Esta web utiliza cookies propias e de terceiros co único propósito de analizar o uso da propia web. Se continúa navegando consideramos que acepta a súa utlización.