Conscientes das limitacións que impoñen as consultas por forma ortográfica e das facilidades para a recuperación de información que supón contar con etiquetas e lemas, paralelamente á construción do CORGA, o Centro Ramón Piñeiro para a investigación en humanidades e o grupo COLE das universidades da Coruña e Vigo estiveron traballando no desenvolvemento do Etiquetador/Lematizador do Galego Actual (XIADA)[1], un etiquetador automático estatístico, destinado a etiquetar automaticamente os documentos do CORGA.
Entre os recursos lingüísticos dos que é preciso dispoñer para poder empregar con certas garantías un etiquetador de tipo estatístico, como é o de XIADA, ocupa un lugar central o corpus de adestramento ou gold standard, un conxunto de textos etiquetados o máis amplo e diversificado lingüisticamente posible, a fin de que o sistema infira a gramática do galego e conte con datos nos que apoiarse para realizar as súas eleccións.
Para que o corpus de adestramento sexa un recurso eficaz cómpre que reúna unha serie de características, entre as que destacan corrección na etiquetaxe, coherencia, diversidade temática e estilística, tamaño e semellanza co tipo de documentos sobre os que se vai aplicar.
Corrección e coherencia lingüísticas. O corpus ten que servir de modelo para a etiquetaxe doutros documentos e para iso é fundamental que a delimitación de unidades de análise e o par etiqueta lema que se lle asigne a cada unidade lingüística sexa a que lle corresponde pola súa posición e función na oración; ou sexa, de todas as posibles etiquetas derivadas do lexicón e etiquetario para unha unidade concreta, hai que optar só por unha, a que se entende é a correcta no contexto no que se localiza. É imprescindible, en consecuencia, que a construción do corpus goce de supervisión lingüística. No noso caso ademais decidiuse que para garantir a congruencia na etiquetaxe só houbese un anotador, recaendo esa responsabilidade en Eva Domínguez. Así pois, o corpus de adestramento foi primeiro etiquetado automaticamente e, a continuación, en fases sucesivas, foi desambiguado á man, co que se garante a congruencia e exactitude da etiquetaxe, na medida en que isto é posible cando participa no proceso unha persoa.
Diversidade temática e mais estilística e semellanza cos futuros textos para etiquetar. As probabilidades de acerto do etiquetador aumentan ademais proporcionalmente en relación coa amplitude e mais a variedade temática e estilística do corpus de adestramento que se empregue para exercitalo. Dado que o obxectivo final é termos todos os documentos do CORGA etiquetados automaticamente no sistema de consultas en liña, necesitamos un corpus de adestramento constituído por textos que procedan da mesma fonte e mostren un estilo semellante aos documentos que se van etiquetar automaticamente.
O subcorpus escollido para o adestramento inicial foi extraído aleatoriamente do CORGA e constou de 200.000 palabras procedentes de noticias xornalísticas do ámbito económico, pertencentes tanto a revistas, as menos (28), como a xornais, as máis (573). O período temporal nel recollido abrangue dende o ano 1977 ata o 2002.
Este subcorpus está constituído por 601 arquivos en formato XML correspondentes a outras tantas noticias pertencentes ás seguintes publicacións:
- A Nosa Terra: 22 noticias
- O Correo Galego: 551 noticias
- Feiraco: 6 noticias
- Galicia Internacional: 8 noticias
- Man Común. Revista galega mensual de información xeral: 1 noticia
- Petroglifo. Revista da Asociación de Empresarios de Artes Gráficas de Galicia: 2 noticias
- Teima. Revista Galega de Información Xeral: 1 noticia
- Tempos Novos: 10 noticias
Sabedores de que o subcorpus de prensa económica desambiguado manualmente non era suficiente para servir de gold standard do xénero xornalístico, precisamente pola súa especificidade temática, decidiuse ampliar o corpus de adestramento nunhas 150.000 palabras cun conxunto de xornais extraídos do CORGA. Este último bloque presenta a peculiaridade de que comprende todas as noticias de cada un dos xornais que nel se inclúen, representando polo tanto os diferentes estilos e características das distintas seccións e non só da de economía.
O subcorpus xeral de prensa está constituído por 596 arquivos en formato XML correspondentes a outras tantas noticias pertencentes ás seguintes publicacións:
- Número 1166 do 3 de marzo do ano 2005 do semanario A Nosa Terra: 77 noticias
- Número 1318 do 10 de xullo do ano 2008 do semanario A Nosa Terra: 89 noticias
- Día 15 de maio de 2007 do xornal De Luns a Venres: 121 noticias
- Día 17 de marzo de 2007 do xornal Galicia Hoxe: 89 noticias
- Día 30 de marzo de 2007 do xornal Galicia Hoxe: 113 noticias
- Día 5 de agosto de 2008 do xornal Galicia Hoxe: 107 noticias
Polo que respecta á ficción, o corpus de adestramento consta para este estilo de case 250.000 palabras distribuídas en 476 fragmentos textuais, de como máximo 1000 palabras cada un, procedentes de parágrafos soltos completos de cada un dos relatos das coleccións que deseguido relacionamos:
- Aleixandre, Marilar: O coitelo en novembro, Edicións Xerais de Galicia, 2010.
- Álvarez Cáccamo, Alfonso: Catapulta, Edicións Xerais de Galicia, 1995.
- Casal, Uxía: Vidas exemplares, Edicións Xerais de Galicia, 2006.
- Cid Cabido, Xosé: Días contados, Edicións Xerais de Galicia, 1991.
- Conde, Alfredo: A casa de Adara, Edicións Xerais de Galicia, 1996.
- Dobao, Antón: Incertos, Edicións Xerais de Galicia, 2008.
- Fonte, Ramiro: As regras do xogo. Dez relatos en xénero negro, Edicións do Cumio, 1990.
- Fraga, Xesús: Tute para catro, Edicións Xerais de Galicia, 2000.
- Franco, Camilo: A lúa no cénit e outros textos, Ediciós do Castro, 1988.
- Franco, Camilo: Palabras contadas, Edicións Xerais de Galicia, 2006.
- Heinze, Úrsula: Remuíños en coiro, Edicións Xerais de Galicia, 1984.
- Hermida "Viñoa", Celsa G.: Anacos, Novos Vieiros, 2001.
- Losada, Ricardo X.: O xene da chuvia, Ediciós do Castro, 2005.
- Lourenzo González, M.: Noites de papel, Edicións Xerais de Galicia, 1997.
- Martín, Paco: Tres historias para ler á noite, Galaxia, 1992.
- Pereiras, Carmen: Pequenos infinitos, Difusora de Letras Artes e Ideas S.L., 2008.
- Pérez Iglesias, David: Estación Término, Edicións Xerais de Galicia, 1993.
- Ruibal, Euloxio R.: De corpo enteiro, Edicións Xerais de Galicia, 1994.
- Trigo, Xosé Manuel G.: Extintos básicos, Edicións Xerais de Galicia, 1998.
O feito de dispoñer dun corpus de algo máis de 600.000 palabras minuciosamente etiquetado, representativo do galego en canto modelo de etiquetaxe para unha ferramenta automática, levou a que se considerase de utilidade poñelo á disposición pública para o estudo de aspectos gramaticais, fundamentalmente. É por isto que o corpus de adestramento se dispuxo en liña de balde co nome de Corpus de Referencia do Galego Actual etiquetado (CORGAetq), baixo un sistema de buscas que permitía realizar consultas tanto empregando formas ortográficas como lemas e etiquetas morfosintácticas. Ese corpus de adestramento do xénero xornalístico e do de ficción, construído especificamente para servirlle de guía de etiquetaxe ao etiquetador de XIADA e dispoñible anteriormente no enderezo http://corpus.cirp.gal/corgaetq, é o que agora se atopa na aplicación actual baixo o nome de Etiquetado manualmente.
Para máis información sobre a codificación e estruturación dos textos, así como unha descrición detallada das posibilidades que ofrece a presente aplicación para a recuperación e extracción de información, pode consultarse a documentación explicativa recollida na pestana Guía: Guía de uso, Codificación e estruturación, Etiquetas de codificación e Etiquetario morfosintáctico.
Para máis información sobre o corpus de adestramento de XIADA (composición, criterios de etiquetaxe etc.) ou os demais recursos lingüísticos que esixe o etiquetador pode verse Etiquetaxe e desambiguación automáticas en galego: o sistema XIADA (http://hdl.handle.net/10347/9587).
Cómpre lembrar finalmente que o corpus de adestramento, ao igual que o lexicón ou o núcleo de XIADA (conxunto de texto etiquetado que se caracteriza por apareceren documentadas todas as etiquetas do etiquetario como mínimo unha vez), está dispoñible para a súa descarga na sección descargas do enderezo web http://corpus.cirp.gal/xiada.
[1] Unha versión deste etiquetador, posuidor dunha alta taxa de acerto (http://doi.org/10.32766/cdl.30-31.37), está dispoñible en liña na web http://corpus.cirp.gal/xiada en modo demostración, e pode utilizarse para etiquetar o texto que se lle proporcione, sempre que non exceda de 4 oracións de ata, como máximo, 512 caracteres.