Corpus de Referencia do Galego Actual

Conscientes das limitacións que impoñen as consultas por forma ortográfica e das facilidades para a recuperación de información que supón contar con etiquetas e lemas, paralelamente á construción do CORGA, o Centro Ramón Piñeiro para a investigación en humanidades e o grupo COLE das universidades da Coruña e Vigo estiveron traballando no desenvolvemento do Etiquetador/Lematizador do Galego Actual (XIADA)[1], un etiquetador automático estatístico, destinado a etiquetar automaticamente os documentos do CORGA.

Entre os recursos lingüísticos dos que é preciso dispoñer para poder empregar con certas garantías un etiquetador de tipo estatístico, como é o de XIADA, ocupa un lugar central o corpus de adestramento ou gold standard, un conxunto de textos etiquetados o máis amplo e diversificado lingüisticamente posible, a fin de que o sistema infira a gramática do galego e conte con datos nos que apoiarse para realizar as súas eleccións.

Para que o corpus de adestramento sexa un recurso eficaz cómpre que reúna unha serie de características, entre as que destacan corrección na etiquetaxe, coherencia, diversidade temática e estilística, tamaño e semellanza co tipo de documentos sobre os que se vai aplicar.

Corrección e coherencia lingüísticas. O corpus ten que servir de modelo para a etiquetaxe doutros documentos e para iso é fundamental que a delimitación de unidades de análise e o par etiqueta lema que se lle asigne a cada unidade lingüística sexa a que lle corresponde pola súa posición e función na oración; ou sexa, de todas as posibles etiquetas derivadas do lexicón e etiquetario para unha unidade concreta, hai que optar só por unha, a que se entende é a correcta no contexto no que se localiza. É imprescindible, en consecuencia, que a construción do corpus goce de supervisión lingüística. No noso caso ademais decidiuse que para garantir a congruencia na etiquetaxe só houbese un anotador, recaendo esa responsabilidade en Eva Domínguez. Así pois, o corpus de adestramento foi primeiro etiquetado automaticamente e, a continuación, en fases sucesivas, foi desambiguado á man, co que se garante a congruencia e exactitude da etiquetaxe, na medida en que isto é posible cando participa no proceso unha persoa.

Diversidade temática e mais estilística e semellanza cos futuros textos para etiquetar. As probabilidades de acerto do etiquetador aumentan ademais proporcionalmente en relación coa amplitude e mais a variedade temática e estilística do corpus de adestramento que se empregue para exercitalo. Dado que o obxectivo final é termos todos os documentos do CORGA etiquetados automaticamente no sistema de consultas en liña, necesitamos un corpus de adestramento constituído por textos que procedan da mesma fonte e mostren un estilo semellante aos documentos que se van etiquetar automaticamente.

O subcorpus escollido para o adestramento inicial foi extraído aleatoriamente do CORGA e constou de 200.000 palabras procedentes de noticias xornalísticas do ámbito económico, pertencentes tanto a revistas, as menos (28), como a xornais, as máis (573). O período temporal nel recollido abrangue dende o ano 1977 ata o 2002.

Este subcorpus está constituído por 601 arquivos en formato XML correspondentes a outras tantas noticias pertencentes ás seguintes publicacións:

Sabedores de que o subcorpus de prensa económica desambiguado manualmente non era suficiente para servir de gold standard do xénero xornalístico, precisamente pola súa especificidade temática, decidiuse ampliar o corpus de adestramento nunhas 150.000 palabras cun conxunto de xornais extraídos do CORGA. Este último bloque presenta a peculiaridade de que comprende todas as noticias de cada un dos xornais que nel se inclúen, representando polo tanto os diferentes estilos e características das distintas seccións e non só da de economía.

O subcorpus xeral de prensa está constituído por 596 arquivos en formato XML correspondentes a outras tantas noticias pertencentes ás seguintes publicacións:

Polo que respecta á ficción, o corpus de adestramento consta para este estilo de case 250.000 palabras distribuídas en 476 fragmentos textuais, de como máximo 1000 palabras cada un, procedentes de parágrafos soltos completos de cada un dos relatos das coleccións que deseguido relacionamos:

O feito de dispoñer dun corpus de algo máis de 600.000 palabras minuciosamente etiquetado, representativo do galego en canto modelo de etiquetaxe para unha ferramenta automática, levou a que se considerase de utilidade poñelo á disposición pública para o estudo de aspectos gramaticais, fundamentalmente. É por isto que o corpus de adestramento se dispuxo en liña de balde co nome de Corpus de Referencia do Galego Actual etiquetado (CORGAetq), baixo un sistema de buscas que permitía realizar consultas tanto empregando formas ortográficas como lemas e etiquetas morfosintácticas. Ese corpus de adestramento do xénero xornalístico e do de ficción, construído especificamente para servirlle de guía de etiquetaxe ao etiquetador de XIADA e dispoñible anteriormente no enderezo http://corpus.cirp.gal/corgaetq, é o que agora se atopa na aplicación actual baixo o nome de Etiquetado manualmente.

Para máis información sobre a codificación e estruturación dos textos, así como unha descrición detallada das posibilidades que ofrece a presente aplicación para a recuperación e extracción de información, pode consultarse a documentación explicativa recollida na pestana Guía: Guía de uso, Codificación e estruturación, Etiquetas de codificación e Etiquetario morfosintáctico.

Para máis información sobre o corpus de adestramento de XIADA (composición, criterios de etiquetaxe etc.) ou os demais recursos lingüísticos que esixe o etiquetador pode verse Etiquetaxe e desambiguación automáticas en galego: o sistema XIADA (http://hdl.handle.net/10347/9587).

Cómpre lembrar finalmente que o corpus de adestramento, ao igual que o lexicón ou o núcleo de XIADA (conxunto de texto etiquetado que se caracteriza por apareceren documentadas todas as etiquetas do etiquetario como mínimo unha vez), está dispoñible para a súa descarga na sección descargas do enderezo web http://corpus.cirp.gal/xiada.


[1] Unha versión deste etiquetador, posuidor dunha alta taxa de acerto (http://doi.org/10.32766/cdl.30-31.37), está dispoñible en liña na web http://corpus.cirp.gal/xiada en modo demostración, e pode utilizarse para etiquetar o texto que se lle proporcione, sempre que non exceda de 4 oracións de ata, como máximo, 512 caracteres.