XIADA

No ano 2003 rematouse unha primeira versión operativa do etiquetador que traballaba con arquivos de texto que se adecuaban á normativa. Para obter esta versión foi necesario: i) determinar o xogo de etiquetas que se ían empregar na anotación (ao redor de 400 etiquetas diferentes), ii) elaborar un lexicón —formado por aproximadamente 31.200 lemas e 630.000 elementos gramaticais— e iii) construír un subcorpus anotado que servise de adestramento —englobaba unhas 100.000 formas ortográficas—.

No 2005 externalizáronse as regras de funcionamento do etiquetador para facilitar a actualización e/ou modificación das mesmas por parte do equipo desenvolvedor.

Durante o 2006 adaptouse o etiquetador para que puidese traballar con arquivos codificados no estándar XML (eXtensible Markup Language) e, polo tanto, cos arquivos da nova codificación dos documentos do Corpus de Referencia do Galego Actual (CORGA). Así mesmo, tamén neste ano, desenvolveuse un sistema non binario de resolución de ambigüidades segmentais e ampliouse considerablemente o lexicón, o cal incluía xa algunhas formas non normativas para facilitar o seu recoñecemento e procesamento automático.

No 2007 publicouse o etiquetario que se emprega no sistema XIADA.

No 2009 faise pública unha demostración do funcionamento do etiquetador e libéranse as primeiras versións dos dous recursos lingüísticos principais que emprega: o léxico (versión 2.2) e o corpus de adestramento (versión 2.3). O corpus de adestramento conta nesta altura con 309.505 elementos gramaticais.

No ano 2010 publícase a versión 2.4, que inclúe a liberación dunha nova versión do léxico, con 718.189 entradas e 53.771 lemas (427 lemas máis que na versión anterior); outra versión do corpus de adestramento, con 426.051 elementos gramaticais e, por último, a actualización a través do modo demostración do etiquetador, adestrado cos novos recursos. Tamén se actualiza na web o etiquetario que emprega o etiquetador (383 etiquetas) e recompílanse exemplos de uso de cada etiqueta.

No ano 2013 publícase a versión 2.5. Con respecto á versión anterior engádense ao léxico 4463 novos lemas, de xeito que o dicionario que manexa nesta altura o etiquetador posúe 726.934 entradas. O corpus de adestramento complétase con texto extraído aleatoriamente de coleccións de relato curto e acada os 594.993 elementos gramaticais.

Na versión 2.6 de 2015 o léxico posúe 797.686 entradas e 62.722 lemas (4370 lemas máis que a versión anterior). Así mesmo, conclúese o corpus de adestramento, o cal engloba 741.833 elementos gramaticais.

No ano 2017 bifúrcanse o lexicón e o corpus de adestramento. O primeiro permanece inalterado na plataforma XIADA, mentres que o corpus de adestramento intégrase para a súa consulta na plataforma de recuperación de información do CORGA, baixo o nome de Corpus etiquetado manualmente <http://corpus.cirp.gal/corga/etiquetado_manualmente_descricion>. Neste punto prodúcese o salto de versión da 2.6 á 3.0, para equiparar ambos os corpus, o etiquetado manual e o etiquetado automático. Con todo, malia non acrecentar o seu tamaño, si está xustificado o cambio de versión dado que se corrixiron algúns erros de etiquetaxe e se introduciu unha pequena modificación sobre a marcaxe dos segmentos pertencentes a linguas diferentes do galego: nas versións anteriores prescindíase por completo dos segmentos pertencentes a linguas diferentes do galego, mais nesta mantéñense coa etiqueta outra_lingua para que o sistema non dea como contiguas na recuperación de información a forma anterior e posterior ao fragmento identificado con outra_lingua.

No ano 2019 prodúcense cambios de envergadura:

Libérase o etiquetador xunto cos recursos que este emprega.
Amplíase o etiquetario con 71 novas etiquetas para dar cabida ás grafías innovadoras que promoven unha linguaxe inclusiva, o que sitúa o tamaño do tagset en 453 etiquetas diferentes. Véxanse ao respecto http://corpus.cirp.gal/xiada/etiquetario/exemplos ou http://corpus.cirp.gal/xiada/etiquetario/taboa.
Actualízase a estrutura do lexicón para que as formas que presentan as grafías anteriores (alumn@, alumn@s, alumno/a, alumna/o, alumna/alumno, alumno/alumna, alumnxs etc.) formen parte do mesmo paradigma que as formas tradicionais (alumna, alumnas, alumno, alumnos), e facilítase deste xeito a súa identificación e caracterización automáticas.
Neutralízase a variación gráfica formal en lemas semellantes relacionándoos a través da implementación do hiperlema. Na súa versión 2.7 o lexicón contén 59.360 hiperlemas.
Introdúcense numerosas entradas no lexicón, tanto de lemas procedentes das formas máis frecuentes do CORGA descoñecidas para o etiquetador, como de desinencias —xerundio ou participios apreciativos (apagandiño, castigadísimos...), pretéritos e futuros rematados en ditongo decrecente acentuado (afirmóu, entréi, demoréi), plurais en -es (animales) e en -s (opciós)—, contraccións nas que están inmersos dialectalismos (dunhos, niste...) etc. En total, o lemario consta de 63.802 lemas, o que dá orixe a 1.136.030 elementos gramaticais.
Créanse novas regras para reconstruír a forma do verbo cando esta non está avalada pola normativa e se amalgama con pronomes enclíticos e/ou segunda forma do artigo: adiantáchete, acheguéime, viróuse etc.

Así mesmo, no ano 2022 publícase a versión 2.8, na que salientan os seguintes cambios:

Introdúcense novas entradas no lexicón. En total, o lemario consta agora de 65.410 lemas que orixinan 1.003.747 elementos gramaticais.
Amplíase o etiquetario con 1 etiqueta para dar cabida á nomenclatura científica binomial ou trinomial, o que sitúa o tamaño do tagset en 454 etiquetas diferentes. Véxanse ao respecto http://corpus.cirp.gal/xiada/etiquetario/exemplos ou http://corpus.cirp.gal/xiada/etiquetario/taboa.
Lematízanse automaticamente os adverbios en -mente, os apreciativos en -iño, os elativos, as formas co prefixo auto- e unha parte das formas que presentan gheada. Así mesmo, prodúcese un incremento substancial no recoñecemento das unidades multipalabra, entre as que destacan as expresións científicas binomiais.
Elimínanse as desinencias que propiciaban, nos grupos de derivación conxugacionais, a etiquetaxe das formas de xerundio e participio apreciativos e mais as de participio elativas, xa que agora o etiquetador manéxaas sen necesidade de que estean presentes no lexicón, co cal se reduce o número de entradas xerais con respecto á versión anterior, pero non o de lemas.
Actualízase a estrutura do lexicón para permitir a introdución de lemas pertencentes á mesma clase de palabra pero con paradigmas flexivos diferentes, como pode ser o caso de xerente, e facilítase, así mesmo, o recoñecemento das formas verbais non normativas do tema de pretérito dos verbos estar, andar, ter e derivados (estuven, anduven, andiven...) e mais as de pretérito e futuro de indicativo rematadas en ditongo acentuado (asentíu, caéu, daréi...).
Mellórase a análise automática das formas coincidentes dos verbos ir e ser.
Corríxense no corpus de adestramento algúns erros de etiquetaxe, inclúese a etiqueta específica para os termos de nomenclatura científica binomial (en Caenorhabditis elegans e Tursiops Truncatus) e reanótanse como unidades multipalabras outros casos (tea de araña, de boca en boca, efecto invernadoiro, en base a etc.).

Finalmente, no ano 2024 preséntase a versión 2.9, cuxas melloras máis destacables son as seguintes:

Ponse á disposición pública un flexionador integral que se sustenta no lexicón de XIADA e se conecta directamente co CORGA, accedendo así ás concordancias da forma desexada en contextos reais de uso.
Habilítase no ítem Demostración a anotación de arquivos de texto para que calquera persoa poida etiquetar morfosintacticamente os seus documentos cos recursos de XIADA dun xeito cómodo, sinxelo e sen precisar coñecementos técnicos.
Introdúcense novas entradas no lexicón (1.032.538 entradas / 66.243 lemas).
Reclasifícanse as locucións adverbiais, conxuntivas e preposicionais nas clases simples respectivas, engádese unha etiqueta para dar conta dos afixos (Zx00 = Periférica, afixo, xénero non aplica, número non aplica) e modifícase o xénero dos indefinidos algo, nada, ren e res de masculino para neutro.
Anótanse e lematízanse automaticamente a través de regras lingüísticas as formas que presentan gheada (fóra os nomes propios) e seseo (salvo as que coinciden con formas presentes no lexicón), así como aqueloutras que conteñen algún dos seguintes prefixos: ex-, etno-, etno, macro-, macro, meta-, meta, micro-, micro, multi-, multi, tele-, tele, xeo- e xeo.
Facilítase o recoñecemento do plural acentuado das polisílabas agudas rematadas en -l (sociáis, industriáis, nivéis, papéis...).

XIADA: Etiquetador/Lematizador do Galego Actual

XIADA