Corpus de Referencia do Galego Actual

En outubro de 2001 o CORGA ponse por primeira vez dispoñible para a súa consulta a través da rede. Esta primeira versión experimental, constituída por 12,5 millóns de formas, presenta unha codificación mínima e unha cabeceira sinxela que permiten a recuperación da información consonte os parámetros ano, medio e área temática. En xaneiro de 2003 actualízase esta versión incrementando o número de formas ata os 17,5 millóns.

Ante as limitacións que impón o sistema empregado, vese a necesidade de buscar outro sistema que permita novas funcionalidades e maiores posibilidades na recuperación de información. Decídese entón exportar todo a un estándar XML e así dende 2004 está dispoñible un novo sistema para o CORGA que utiliza unha codificación XML para os documentos e que é o que evoluciona no tempo (Barcala, 2010). Esa primeira versión XML, constituída por 7 millóns de formas ortográficas, coexiste coa versión do 2003 formada polos 17,5 millóns de formas, posto que non se completara aínda a conversión dos documentos que naquela altura constituían a versión dispoñible na rede.

No 2007 disponse unha nova versión do CORGA que contén case 20 millóns de formas e inclúe xa todos os documentos da versión antiga, xunto con outros moitos novos. Ademais, esta nova versión inclúe novas e significativas posibilidades de busca: consulta da nómina de autores e obras, interconexión do sistema de buscas co sistema de nómina etc., o que posibilita ter uns valores de referencia moi útiles á hora de extraer conclusións a partir da análise de resultados.

No 2008 publícase a versión 1.3, que contén 23 millóns de formas ortográficas.

No 2009 publícase a versión 1.4, con 25 millóns de formas. Ademais, ponse á disposición pública a versión 1.0 dun sistema máis avanzado de buscas, o Corpus de Referencia do Galego Actual etiquetado (CORGAetq), que consta de 250.000 formas ortográficas etiquetadas e lematizadas. Este subcorpus etiquetado, destinado a converterse en corpus de adestramento, está constituído por noticias xornalísticas de temática económica extraídas aleatoriamente do CORGA, cuxa etiquetaxe foi supervisada por unha lingüista.

No ano 2010 publícase a versión 1.5 do CORGA, con 25,8 millóns de formas, e a versión 2.4[1] do sistema de buscas do CORGAetq que inclúe 360.000 formas ortográficas, correspondendo estas ao corpus de adestramento xornalístico.

No ano 2013 publícase a versión 1.6, con 29 millóns de formas, e a versión 2.5 do sistema de buscas do corpus etiquetado que inclúe 499.000 formas ortográficas, as correspondentes ao corpus de adestramento xornalístico e a parte do de ficción.

No ano 2015 publícase a versión 1.7, con 31,9 millóns de formas, e a versión 2.6 do sistema de buscas do corpus etiquetado que inclúe 617.042 formas ortográficas, as pertencentes ao corpus de adestramento xornalístico e de ficción.

No ano 2017 publícase a versión 3.0, a cal unifica na mesma aplicación os dous sistemas de consulta en liña dispoñibles anteriormente (o do CORGA e o do CORGAetq) nun único sistema que dá cabida ás diferentes aproximacións de busca: consulta por palabras ortográficas, elementos gramaticais, clases de palabras, etiquetas ou lemas, tanto no subcorpus desambiguado manualmente como no Corpus de Referencia do Galego Actual etiquetado automaticamente.

En síntese, a listaxe de versións de cada un dos sistemas de buscas, xunto co ano da súa publicación e o número de formas que contén, é a seguinte:

  • CORGA: Corpus de Referencia do Galego Actual (http://corpus.cirp.es/corga)
    • versión 1.0, 2001; 12,5 millóns de formas gráficas (textos en txt)
    • versión 1.1, 2003; 17,5 millóns de formas gráficas (textos en txt)
    • versión 1.2, 2004; 17,5 millóns de formas en txt (http://corpus.cirp.es/corga) e 7 millóns de formas en xml (http://corpus.cirp.es/corgaxml)
    • versión 1.3, 2007; 20 millóns de formas gráficas
    • versión 1.4, 2009; 25 millóns de formas gráficas
    • versión 1.5, 2010; 25,8 millóns de formas gráficas
    • versión 1.6, 2013; 29 millóns de formas gráficas
    • versión 1.7, 2015; 31,9 millóns de formas gráficas
  • CORGAetq: Corpus de Referencia do Galego Actual etiquetado (http://corpus.cirp.es/corgaetq)
    • versión 1.0, 2009; 250.000 formas ortográficas / 309.000 elementos gramaticais
    • versión 2.4, 2010; 360.000 formas ortográficas / 426.000 elementos gramaticais
    • versión 2.5, 2013; 499.000 formas ortográficas / 594.000 elementos gramaticais
    • versión 2.6, 2015; 617.000 formas ortográficas / 741.000 elementos gramaticais
  • CORGA: Corpus de Referencia do Galego Actual (http://corpus.cirp.gal/corga) versión 3.0
    • etiquetado automaticamente: 36.746.902 palabras ortográficas / 44.125.386 elementos gramaticais
    • etiquetado manualmente: 617.492 palabras ortográficas / 742.044 elementos gramaticais

[1] O salto na versión da 1.0 á 2.4 prodúcese para igualar co número de versión do etiquetador que se usa, mais non hai outras versións intermedias.

Esta web utiliza cookies propias e de terceiros co único propósito de analizar o uso da propia web. Se continúa navegando consideramos que acepta a súa utlización.