Corpus de Referencia do Galego Actual

Listaxe de documentos contidos na base de datos

Ata o momento incorporáronse ao CORGA 672 xornais (exemplares completos d’A Nosa Terra, A Peneira, De Luns a Venres, Diario Oficial de Galicia, Galicia Hoxe, Novas do Eixo Atlántico, O Correo Galego, O Xornal de Galicia, Sermos Galiza, Terra chá xa, Tempos Galegos e noticias soltas de La Voz de Galicia), 337 revistas (entre elas números de Código Cero, Cerna, Consumer Eroski, Díxitos, Entregas de Comunicación Cultural, Disquecool, Feiraco, Galicia Internacional, GCiencia, Luzes, Man Común, Petroglifo, Teatro do Noroeste, Teima, Tempos Novos etc.), 617 libros (212 novelas, 171 ensaios, 140 coleccións de relato e 95 obras de teatro), 16 guións televisivos, 203 entradas de blogs e preto de 45 horas de transcricións sonoras. A amplitude de documentos dos que consta o CORGA así como os criterios empregados na súa selección permítennos considerar este corpus representativo do uso lingüístico do galego actual.

No que se refire ao tamaño, a presente versión do CORGA, a 4.0, consta de 43.162.364 palabras, incluídas as cifras (51.451.088 elementos gramaticais). Hai, non obstante, un subconxunto de 687.058 formas gráficas sobre as que non se poden facer buscas, pois son unidades que aparecen en fragmentos textuais que están nunha lingua distinta do galego ou aparecen en notas de tipo bibliográfico, resultando un total de 42.475.306 formas ortográficas sobre as que si se poden realizar consultas, das cales 624.265 son formas diferentes.

As seguintes táboas amosan a distribución de frecuencias do corpus segundo os diversos parámetros de clasificación dos documentos, primeiramente por palabras e deseguido por elementos gramaticais.

Palabras ortográficas
Frecuencias
Frecuencia Palabras ortográficas Frecuencia normalizada Frecuencia normalizada acumulada Frecuencia das palabras Frecuencia normalizada Frecuencia normalizada acumulada
> 5000 779 0,12 % 0,12 % 31.716.069,0 64,66 % 64,66 %
1000 < F ≤ 5000 3308 0,51 % 0,62 % 6.865.835,0 14,0 % 78,65 %
500 < F ≤ 1000 3507 0,54 % 1,16 % 2.462.684,0 5,02 % 83,67 %
100 < F ≤ 500 18.644 2,85 % 4,01 % 4.040.057,0 8,24 % 91,91 %
25 < F ≤ 100 39.941 6,11 % 10,12 % 2.002.525,0 4,08 % 95,99 %
10 < F ≤ 25 46.283 7,08 % 17,19 % 756.896,0 1,54 % 97,53 %
4 < F ≤ 10 69.990 10,7 % 27,89 % 481.476,0 0,98 % 98,52 %
2 < F ≤4 71.572 10,94 % 38,83 % 242.486,0 0,49 % 99,01 %
F=2 85.810 13,12 % 51,95 % 171.620,0 0,35 % 99,36 %
F=1 314.331 48,05 % 100,0 % 314.331,0 0,64 % 100,0 %
Lustro
Palabras ortográficas Documentos Frec. norm. (por millón)
1975-1979 811.264 117 16.538
1980-1984 1.345.493 143 27.429
1985-1989 1.645.311 120 33.541
1990-1994 4.392.600 386 89.546
1995-1999 8.064.631 12.422 164.403
2000-2004 6.053.967 9479 123.414
2005-2009 7.930.526 13.877 161.669
2010-2014 8.693.350 14.943 177.220
2015-2019 3.511.557 3766 71.586
2020-2024 26.607 47 542
Medio
Palabras ortográficas Documentos Frec. norm. (por millón)
Audiovisual 564.119 124 11.500
Internet 92.411 207 1884
Libro 23.129.194 3057 471.505
Revista 5.954.275 9343 121.382
Xornal 12.735.307 42.569 259.618
Orixe
Palabras ortográficas Documentos Frec. norm. (por millón)
Escrita 42.035.688 55.194 856.927
Oral 439.618 106 8962
Bloque
Palabras ortográficas Documentos Frec. norm. (por millón)
Ficción 15.214.232 2408 310.153
Non ficción 26.821.456 52.786 546.774
Non aplica 439.618 106 8962
Subtipo
Palabras ortográficas Documentos Frec. norm. (por millón)
Artigo científico 321.026 52 6544
Blog 92.411 207 1884
Conferencia 10.959 6 223
Divulgación 6.937.617 628 141.428
Entrevista 39.388 12 803
Guión 130.778 19 2666
Informativo 109.848 22 2239
Libro de texto 511.067 7 10.418
Memoria 474.905 10 9681
Novela 10.552.473 231 215.120
Obra de teatro 1.364.622 192 27.819
Programa cultural 61.056 9 1245
Publicidade 8255 29 168
Relato curto 3.166.359 1966 64.548
Revista 5.749.123 9313 117.200
Tertulia 69.074 9 1408
Variedades 141.038 19 2875
Xornal 12.735.307 42.569 259.618
Xénero
Palabras ortográficas Documentos Frec. norm. (por millón)
Dramático 1.495.400 211 30.485
Ensaístico 8.244.615 697 168.072
Narrativo 13.718.832 2197 279.668
Xornalístico 18.576.841 52.089 378.702
Non aplica 439.618 106 8962
Sexo
Palabras ortográficas Documentos Frec. norm. (por millón)
Ambos 826.480 193 16.848
Descoñecido 11.405.571 39.161 232.511
Home 24.287.038 11.453 495.108
Muller 5.512.836 4378 112.383
Non aplica 443.381 115 9039
Área temática
Palabras ortográficas Documentos Frec. norm. (por millón)
Economía e política 13.003.782 28.160 265.091
Cultura e artes 4.461.276 9357 90.946
Ciencias sociais 11.008.883 12.870 224.424
Ciencias e tecnoloxía 5.705.736 9529 116.315
Outros 8.077.614 22.682 164.668
Sen clasificar 15.561.892 2455 317.240
Elementos gramaticais
Frecuencias
Frecuencia Elementos gramaticais Frecuencia normalizada Frecuencia normalizada acumulada Frecuencia dos elementos Frecuencia normalizada Frecuencia normalizada acumulada
> 5000 716 0,11 % 0,11 % 35.887.554,0 68,96 % 68,96 %
1000 < F ≤ 5000 3173 0,48 % 0,58 % 6.530.578,0 12,55 % 81,5 %
500 < F ≤ 1000 3331 0,5 % 1,09 % 2.332.888,0 4,48 % 85,99 %
100 < F ≤ 500 17.056 2,56 % 3,65 % 3.720.678,0 7,15 % 93,13 %
25 < F ≤ 100 34.720 5,22 % 8,87 % 1.749.367,0 3,36 % 96,5 %
10 < F ≤ 25 39.681 5,96 % 14,83 % 648.234,0 1,25 % 97,74 %
4 < F ≤ 10 62.153 9,34 % 24,18 % 427.145,0 0,82 % 98,56 %
2 < F ≤4 66.475 9,99 % 34,17 % 225.025,0 0,43 % 98,99 %
F=2 85.346 12,83 % 47,0 % 170.692,0 0,33 % 99,32 %
F=1 352.600 53,0 % 100,0 % 352.600,0 0,68 % 100,0 %
Lustro
Elementos gramaticais Documentos Frec. norm. (por millón)
1975-1979 959.055 117 18.428
1980-1984 1.665.176 143 31.995
1985-1989 2.009.076 120 38.603
1990-1994 5.391.382 386 103.591
1995-1999 9.833.533 12.422 188.944
2000-2004 7.345.223 9479 141.133
2005-2009 9.504.714 13.877 182.626
2010-2014 10.488.577 14.943 201.530
2015-2019 4.222.296 3766 81.128
2020-2024 32.056 47 616
Medio
Elementos gramaticais Documentos Frec. norm. (por millón)
Audiovisual 617.177 124 11.859
Internet 111.611 207 2145
Libro 28.496.115 3057 547.531
Revista 7.085.451 9343 136.141
Xornal 15.140.734 42.569 290.918
Orixe
Elementos gramaticais Documentos Frec. norm. (por millón)
Escrita 51.003.999 55.194 980.003
Oral 447.089 106 8590
Bloque
Elementos gramaticais Documentos Frec. norm. (por millón)
Ficción 19.220.761 2408 369.312
Non ficción 31.783.238 52.786 610.690
Non aplica 447.089 106 8590
Subtipo
Elementos gramaticais Documentos Frec. norm. (por millón)
Artigo científico 374.988 52 7205
Blog 111.611 207 2145
Conferencia 11.355 6 218
Divulgación 8.114.661 628 155.917
Entrevista 40.921 12 786
Guión 178.395 19 3428
Informativo 113.768 22 2186
Libro de texto 629.778 7 12.101
Memoria 573.494 10 11.019
Novela 13.281.911 231 255.202
Obra de teatro 1.807.862 192 34.737
Programa cultural 60.665 9 1166
Publicidade 8194 29 157
Relato curto 3.952.593 1966 75.946
Revista 6.837.972 9313 131.386
Tertulia 68.970 9 1325
Variedades 143.216 19 2752
Xornal 15.140.734 42.569 290.918
Xénero
Elementos gramaticais Documentos Frec. norm. (por millón)
Dramático 1.986.257 211 38.164
Ensaístico 9.692.921 697 186.242
Narrativo 17.234.504 2197 331.148
Xornalístico 22.090.317 52.089 424.448
Non aplica 447.089 106 8590
Sexo
Elementos gramaticais Documentos Frec. norm. (por millón)
Ambos 1.014.680 193 19.496
Descoñecido 13.544.328 39.161 260.244
Home 29.729.917 11.453 571.237
Muller 6.710.660 4378 128.940
Non aplica 451.503 115 8675
Área temática
Elementos gramaticais Documentos Frec. norm. (por millón)
Economía e política 15.388.271 28.160 295.674
Cultura e artes 5.257.198 9357 101.013
Ciencias sociais 12.980.685 12.870 249.414
Ciencias e tecnoloxía 6.781.503 9529 130.301
Outros 9.590.225 22.682 184.269
Sen clasificar 19.556.590 2455 375.765