Corpus de Referencia do Galego Actual

En outubro de 2001 o CORGA ponse por primeira vez dispoñible para a súa consulta a través da rede. Esta primeira versión experimental, constituída por 12,5 millóns de formas, presenta unha codificación mínima e unha cabeceira sinxela que permiten a recuperación da información consonte os parámetros ano, medio e área temática. En xaneiro de 2003 actualízase esta versión incrementando o número de formas ata os 17,5 millóns.

Ante as limitacións que impón o sistema empregado, vese a necesidade de buscar outro sistema que permita novas funcionalidades e maiores posibilidades na recuperación de información. Decídese entón exportar todo a un estándar XML e así dende 2004 está dispoñible un novo sistema para o CORGA que utiliza unha codificación XML para os documentos e que é o que evoluciona no tempo (http://hdl.handle.net/2183/7171). Esa primeira versión XML, constituída por 7 millóns de formas ortográficas, coexiste coa versión do 2003 formada polos 17,5 millóns de formas, posto que non se completara aínda a conversión dos documentos que naquela altura constituían a versión dispoñible na rede.

No 2007 disponse unha nova versión do CORGA que contén case 20 millóns de formas e inclúe xa todos os documentos da versión antiga, xunto con outros moitos novos. Ademais, esta nova versión inclúe novas e significativas posibilidades de busca: consulta da nómina de autores e obras, interconexión do sistema de buscas co sistema de nómina etc., o que posibilita ter uns valores de referencia moi útiles á hora de extraer conclusións a partir da análise de resultados.

No 2008 publícase a versión 1.3, que contén 23 millóns de formas ortográficas.

No 2009 publícase a versión 1.4, con 25 millóns de formas. Ademais, ponse á disposición pública a versión 1.0 dun sistema máis avanzado de buscas, o Corpus de Referencia do Galego Actual etiquetado (CORGAetq), que consta de 250.000 formas ortográficas etiquetadas e lematizadas. Este subcorpus etiquetado, destinado a converterse en corpus de adestramento, está constituído por noticias xornalísticas de temática económica extraídas aleatoriamente do CORGA, cuxa etiquetaxe foi supervisada por unha lingüista.

No ano 2010 publícase a versión 1.5 do CORGA, con 25,8 millóns de formas, e a versión 2.4[1] do sistema de buscas do CORGAetq que inclúe 360.000 formas ortográficas, correspondendo estas ao corpus de adestramento xornalístico.

No ano 2013 publícase a versión 1.6, con 29 millóns de formas, e a versión 2.5 do sistema de buscas do corpus etiquetado que inclúe 499.000 formas ortográficas, as correspondentes ao corpus de adestramento xornalístico e a parte do de ficción.

No ano 2015 publícase a versión 1.7, con 31,9 millóns de formas, e a versión 2.6 do sistema de buscas do corpus etiquetado que inclúe 617.042 formas ortográficas, as pertencentes ao corpus de adestramento xornalístico e de ficción.

No ano 2017 publícase a versión 3.0, a cal unifica na mesma aplicación os dous sistemas de consulta en liña dispoñibles anteriormente (o do CORGA e o do CORGAetq) nun único sistema que dá cabida ás diferentes aproximacións de busca: consulta por palabras ortográficas, elementos gramaticais, clases de palabras, etiquetas ou lemas, tanto no subcorpus desambiguado manualmente como no Corpus de Referencia do Galego Actual etiquetado automaticamente. Ademais, iníciase a representación do rexistro oral coa inclusión da transcrición ortográfica de programas de radio da década dos 90, nas que se aliña o texto coa voz.

En abril do ano 2019 preséntase a versión 3.1, na que se incrementa o volume textual para os últimos dous lustros e se producen melloras cualitativas na etiquetaxe, entre outras, ao facilitar o recoñecemento automático das formas con grafías innovadoras para a linguaxe inclusiva. Cómpre destacar, así mesmo, a implementación do hiperlema nas modalidades de consulta por elementos gramaticais como un parámetro máis de axuda para a recuperación de información que minimiza a variación gráfica nos lemas.

En novembro do ano 2019 publícase a versión 3.2, que non incorpora novos textos mais si dúas melloras moi significativas nas funcionalidades que ofrece. Por unha banda, a visualización da información recuperada en forma de expresións coincidentes, de maneira que os resultados coincidentes redúcense a un único por expresión. Por outra banda, a xeito de dicionario de frecuencias, facilítase a obtención personalizada das frecuencias relativas a formas, etiquetas, lemas e hiperlemas mediante os parámetros lingüísticos e clasificatorios dispoñibles no sistema.

En xaneiro de 2022 ponse á disposición pública a versión 4.0, constituída por 43 millóns de formas ortográficas. Nela, as modalidades anteriormente denominadas Expresións coincidentes e Dicionario de frecuencias intégranse en Inventario, co cal se poden obter os elementos solicitados para a totalidade do corpus ou para cada un dos parámetros clasificatorios (lustro, medio, orixe, xénero, subtipo de documento, área temática ou sexo do autor). Engádese ademais nesta versión a posibilidade de procurar nunha obra específica e por un certo autor ou polo sexo deste e, así mesmo, recupérase o sistema de consulta da nómina de autores e obras que compoñen o corpus e ofrécese unha primeira versión para a procura de coaparicións. Por último, dende o punto de vista da anotación morfosintactica, ademais doutras melloras, cabe subliñar a lematización automática para os adverbios en -mente, os apreciativos en -iño, os elativos e as formas co prefixo auto-, e mais un incremento substancial no recoñecemento das unidades multipalabra, entre as que salientan as expresións científicas binomiais.

En 2024 ponse á disposición pública a versión 4.1, integrada por 45 millóns de formas ortográficas. Nela prodúcense melloras en extensión e en profundidade. No que respecta ás primeiras, culmínase a incorporación dos documentos escritos representativos do lustro 2015-2019 e mais das mostras de oral para esa década. No que respecta ás segundas, increméntanse as posibilidades de recuperación de información coa engádega de novos filtros: a) introdúcese o valor sexo para o atributo interlocutor (aplicado aos falantes das mostras orais, os intervinientes en entrevistas e faladoiros ou os personaxes de obras dramáticas), co cal se facilitan cruzamentos co sexo do autor que poden resultar de sumo interese; b) engádese a busca por obra (en liñas xerais, todos os exemplares dun xornal ou revista concretos), que vén completar a procura por documento (grosso modo, cada noticia dun xornal ou cada relato dunha colección); e c) habilítase a consulta directa ás ocorrencias dunha etiqueta dada e, en consecuencia, á aplicación de consulta do corpus dende o flexionador, ferramenta que pon á disposición pública os paradigmas flexivos dos lemas presentes na base de datos léxica de XIADA. Por último, dende o punto de vista da anotación morfosintáctica, ademais da reclasificación das locucións adverbiais, conxuntivas e prepositivas nas clases simples respectivas, o incremento do lexicón e outras melloras significativas coma o recoñecemento do plural acentuado das polisílabas agudas rematadas en -l, cómpre destacar a anotación e lematización automática a través de regras lingüísticas para as formas que presentan gheada (fóra os nomes propios) e seseo (salvo as que coinciden con formas presentes no lexicón), así como para aqueloutras que presentan algún dos seguintes prefixos: ex-, etno-, etno, macro, macro-, meta-, meta, micro-, micro, multi-, multi, tele-, tele, xeo- e xeo.

Por outra banda, entre as novidades que incorpora a versión 4.1 do CORGA, cabe destacar un dicionario de frecuencias que toma en consideración o índice de dispersión, de maneira que o grao en que os lemas se distribúen nos diferentes tipos de textos, isto é, a súa dispersión, se converte nunha medida moito máis reveladora da relevancia dos elementos léxicos que a súa frecuencia global e normalizada.

En síntese, a listaxe de versións de cada un dos sistemas de buscas, xunto co ano da súa publicación e o número de formas que contén, é a seguinte:


[1] O salto na versión da 1.0 á 2.4 prodúcese para igualar co número de versión do etiquetador que se usa, mais non hai outras versións intermedias.