XIADA: Etiquetador/Lematizador do Galego Actual

XIADA

No ano 2003 rematouse unha primeira versión operativa do etiquetador que traballaba con arquivos de texto que se adecuaban á normativa. Para obter esta versión foi necesario: i) determinar o xogo de etiquetas que se ían empregar na anotación (ao redor de 400 etiquetas diferentes), ii) elaborar un lexicón —formado por aproximadamente 31.200 lemas e 630.000 elementos gramaticais— e iii) construír un subcorpus anotado que servise de adestramento —englobaba unhas 100.000 formas ortográficas—.

No 2005 externalizáronse as regras de funcionamento do etiquetador para facilitar a actualización e/ou modificación das mesmas por parte do equipo desenvolvedor.

Durante o 2006 adaptouse o etiquetador para que puidese traballar con arquivos codificados no estándar XML (eXtensible Markup Language) e, polo tanto, cos arquivos da nova codificación dos documentos do Corpus de Referencia do Galego Actual (CORGA). Así mesmo, tamén neste ano, desenvolveuse un sistema xenérico de resolución de ambigüidades segmentais e ampliouse considerablemente o lexicón, o cal incluía xa algunhas formas non normativas para facilitar o seu recoñecemento e procesamento automático.

No 2007 publicouse o etiquetario que se emprega no sistema XIADA.

No 2009 faise pública unha demostración do funcionamento do etiquetador e libéranse as primeiras versións dos dous recursos lingüísticos principais que emprega: o léxico (versión 2.2) e o corpus de adestramento (versión 2.3). O corpus de adestramento conta nesta altura con 309.505 elementos gramaticais.

No ano 2010 publícase a versión 2.4, que inclúe a liberación dunha nova versión do léxico, con 718.189 entradas e 53.771 lemas (427 lemas máis que na versión anterior); outra versión do corpus de adestramento, con 426.051 elementos gramaticais e, por último, a actualización a través do modo demostración do etiquetador, adestrado cos novos recursos. Tamén se actualiza na web o etiquetario que emprega o etiquetador (383 etiquetas) e recompílanse exemplos de uso de cada etiqueta.

No ano 2013 publícase a versión 2.5. Con respecto á versión anterior engádense ao léxico 4463 novos lemas, de xeito que o dicionario que manexa nesta altura o etiquetador posúe 726.934 entradas. O corpus de adestramento complétase con texto extraído aleatoriamente de coleccións de relato curto e acada os 594.993 elementos gramaticais.

Na versión 2.6 de 2015 o léxico posúe 797.686 entradas e 62.722 lemas (4370 lemas máis que a versión anterior). Así mesmo, conclúese o corpus de adestramento, o cal engloba 741.833 elementos gramaticais.

No ano 2017 bifúrcanse o lexicón e o corpus de adestramento. O primeiro permanece inalterado na plataforma XIADA, mentres que o corpus de adestramento intégrase para a súa consulta na plataforma de recuperación de información do CORGA, baixo o nome de Corpus etiquetado manualmente <http://corpus.cirp.gal/corga/etiquetado_manualmente_descricion>. Neste punto prodúcese o salto de versión da 2.6 á 3.0, para equiparar ambos os corpus, o etiquetado manual e o etiquetado automático. Con todo, malia non acrecentar o seu tamaño, si está xustificado o cambio de versión dado que se corrixiron algúns erros de etiquetaxe e se introduciu unha pequena modificación sobre a marcaxe dos segmentos pertencentes a linguas diferentes do galego: nas versións anteriores prescindíase por completo dos segmentos pertencentes a linguas diferentes do galego, mais nesta mantéñense coa etiqueta outra_lingua para que o sistema non dea como contiguas na recuperación de información a forma anterior e posterior ao fragmento identificado con outra_lingua.

Finalmente, no ano 2019 prodúcense cambios de envergadura:

  1. Libérase o etiquetador xunto cos recursos que este emprega.
  2. Amplíase o etiquetario con 71 novas etiquetas para dar cabida ás grafías innovadoras que promoven unha linguaxe non sexista, o que sitúa o tamaño do tagset en 453 etiquetas diferentes. Véxanse ao respecto http://corpus.cirp.gal/xiada/etiquetario/exemplos ou http://corpus.cirp.gal/xiada/etiquetario/taboa.
  3. Actualízase a estrutura do lexicón para que as formas que presentan as grafías anteriores (alumn@, alumn@s, alumno/a, alumna/o, alumna/alumno, alumno/alumna, alumnxs etc.) formen parte do mesmo paradigma que as formas tradicionais (alumna, alumnas, alumno, alumnos), e facilítase deste xeito a súa identificación e caracterización automáticas.
  4. Neutralízase a variación gráfica formal en lemas semellantes relacionándoos a través da implementación do hiperlema. Na súa versión 2.7 o lexicón contén 59.360 hiperlemas.
  5. Introdúcense numerosas entradas no lexicón, tanto de lemas procedentes das formas máis frecuentes do CORGA descoñecidas para o etiquetador, como de desinencias —xerundio ou participios apreciativos (apagandiño, castigadísimos...), pretéritos e futuros rematados en ditongo decrecente acentuado (afirmóu, entréi, demoréi), plurais en -es (animales) e en -s (opciós)—, contraccións nas que están inmersos dialectalismos (dunhos, niste...) etc. En total, o lemario consta de 63.802 lemas, o que dá orixe a 1.136.030 elementos gramaticais.
  6. Créanse novas regras para reconstruír a forma do verbo cando esta non está avalada pola normativa e se amalgama con pronomes enclíticos e/ou segunda forma do artigo: adiantáchete, acheguéime, viróuse etc.