Corpus de Referencia do Galego Actual

Listaxe de documentos contidos na base de datos

Ata o momento incorporáronse ao CORGA 758 xornais (exemplares completos d’A Nosa Terra, A Peneira, De Luns a Venres, Diario Oficial de Galicia, Galicia Hoxe, Novas do Eixo Atlántico, O Correo Galego, O Xornal de Galicia, Sermos Galiza, Terra chá xa, Tempos Galegos e noticias soltas de La Voz de Galicia), 348 revistas (entre elas números de Código Cero, Cerna, Consumer Eroski, Díxitos, Entregas de Comunicación Cultural, Disquecool, Feiraco, Galicia Internacional, GCiencia, Luzes, Man Común, Petroglifo, Teatro do Noroeste, Teima, Tempos Novos etc.), 220 novelas, 196 ensaios, 144 coleccións de relato, 163 obras de teatro, 20 guións televisivos, 203 entradas de blogs e preto de 69 horas de transcricións sonoras. A amplitude de documentos dos que consta o CORGA así como os criterios empregados na súa selección permítennos considerar este corpus representativo do uso lingüístico do galego actual.

No que se refire ao tamaño, a presente versión do CORGA, a 4.1, consta de 45.665.649 palabras, incluídas as cifras (54.737.277 elementos gramaticais). Hai, non obstante, un subconxunto de 560.193 formas gráficas sobre as que non se poden facer buscas, pois son unidades que aparecen en fragmentos textuais que están nunha lingua distinta do galego ou aparecen en notas de tipo bibliográfico, resultando un total de 45.105.456 formas ortográficas sobre as que si se poden realizar consultas, das cales 635.552 son formas diferentes.

As seguintes táboas amosan a distribución de frecuencias do corpus segundo os diversos parámetros de clasificación dos documentos, primeiramente por palabras e deseguido por elementos gramaticais.

Palabras ortográficas
Frecuencias
Frecuencia Palabras ortográficas Frecuencia normalizada Frecuencia normalizada acumulada Frecuencia das palabras Frecuencia normalizada Frecuencia normalizada acumulada
> 5000 840 0,13 % 0,13 % 34.191.273,0 65,39 % 65,39 %
1000 < F ≤ 5000 3512 0,53 % 0,66 % 7.297.936,0 13,96 % 79,34 %
500 < F ≤ 1000 3672 0,56 % 1,22 % 2.572.333,0 4,92 % 84,26 %
100 < F ≤ 500 19.310 2,93 % 4,14 % 4.181.457,0 8,0 % 92,26 %
25 < F ≤ 100 40.898 6,2 % 10,34 % 2.050.644,0 3,92 % 96,18 %
10 < F ≤ 25 47.356 7,18 % 17,51 % 774.310,0 1,48 % 97,66 %
4 < F ≤ 10 71.244 10,8 % 28,31 % 490.235,0 0,94 % 98,6 %
2 < F ≤4 72.691 11,01 % 39,32 % 246.191,0 0,47 % 99,07 %
F=2 86.727 13,14 % 52,46 % 173.454,0 0,33 % 99,4 %
F=1 313.714 47,54 % 100,0 % 313.714,0 0,6 % 100,0 %
Lustro
Palabras ortográficas Documentos Frec. norm. (por millón)
1975-1979 809.162 117 15.474
1980-1984 1.341.520 143 25.655
1985-1989 1.642.013 120 31.401
1990-1994 4.383.743 386 83.833
1995-1999 8.047.538 12.422 153.897
2000-2004 6.042.084 9479 115.546
2005-2009 7.915.636 13.877 151.375
2010-2014 8.757.570 14.936 167.476
2015-2019 5.826.777 6055 111.429
2020-2024 339.413 158 6491
Medio
Palabras ortográficas Documentos Frec. norm. (por millón)
Audiovisual 814.222 157 15.571
Internet 92.228 207 1764
Libro 24.377.481 3297 466.184
Revista 6.287.920 9718 120.247
Xornal 13.533.605 44.314 258.811
Orixe
Palabras ortográficas Documentos Frec. norm. (por millón)
Escrita 44.415.888 57.554 849.389
Oral 689.568 139 13.187
Bloque
Palabras ortográficas Documentos Frec. norm. (por millón)
Ficción 15.921.023 2610 304.466
Non ficción 28.494.865 54.944 544.923
Non aplica 689.568 139 13.187
Subtipo
Palabras ortográficas Documentos Frec. norm. (por millón)
Artigo científico 320.423 52 6128
Blog 92.228 207 1764
Conferencia 10.960 6 210
Divulgación 7.484.592 666 143.132
Entrevista 39.393 12 753
Guión 148.534 20 2840
Informativo 115.684 23 2212
Libro de texto 507.517 7 9706
Memoria 473.503 10 9055
Novela 11.147.941 240 213.188
Obra de teatro 1.367.349 193 26.149
Programa cultural 104.051 13 1990
Publicidade 8254 29 158
Relato curto 3.257.199 2157 62.289
Revista 6.082.997 9688 116.328
Tertulia 174.939 26 3345
Variedades 236.287 30 4519
Xornal 13.533.605 44.314 258.811
Xénero
Palabras ortográficas Documentos Frec. norm. (por millón)
Dramático 1.515.883 213 28.989
Ensaístico 8.786.035 735 168.020
Narrativo 14.405.140 2397 275.477
Xornalístico 19.708.830 54.209 376.903
Non aplica 689.568 139 13.187
Área temática
Palabras ortográficas Documentos Frec. norm. (por millón)
Economía e política 14.030.366 29.506 268.310
Cultura e artes 4.658.588 9714 89.089
Ciencias sociais 11.954.037 13.717 228.604
Ciencias e tecnoloxía 5.942.875 9841 113.649
Outros 8.500.084 23.539 162.552
Sen clasificar 16.516.742 2689 315.859
Sexo-autor
Palabras ortográficas Documentos Frec. norm. (por millón)
Ambos 884.150 232 16.908
Descoñecido 11.168.211 40.062 213.576
Home 25.898.857 12.388 495.278
Muller 6.462.506 4864 123.586
Non aplica 691.732 147 13.228
Sexo-interlocutor
Palabras ortográficas Documentos Frec. norm. (por millón)
Ambos 2340 51 45
Descoñecido 60.664 472 1160
Home 2.550.959 1495 48.783
Muller 957.269 909 18.306
Non aplica 41.443.167 57.542 792.540
Non binario 1859 5 36
Non pertinente 89.198 75 1706
Elementos gramaticais
Frecuencias
Frecuencia Elementos gramaticais Frecuencia normalizada Frecuencia normalizada acumulada Frecuencia dos elementos Frecuencia normalizada Frecuencia normalizada acumulada
> 5000 754 0,11 % 0,11 % 38.578.723,0 69,8 % 69,8 %
1000 < F ≤ 5000 3348 0,51 % 0,62 % 6.929.880,0 12,54 % 82,33 %
500 < F ≤ 1000 3431 0,52 % 1,15 % 2.392.419,0 4,33 % 86,66 %
100 < F ≤ 500 17.430 2,65 % 3,8 % 3.803.652,0 6,88 % 93,54 %
25 < F ≤ 100 34.911 5,31 % 9,11 % 1.759.504,0 3,18 % 96,73 %
10 < F ≤ 25 39.695 6,04 % 15,15 % 647.959,0 1,17 % 97,9 %
4 < F ≤ 10 61.818 9,41 % 24,55 % 424.681,0 0,77 % 98,67 %
2 < F ≤4 65.652 9,99 % 34,54 % 222.075,0 0,4 % 99,07 %
F=2 84.156 12,8 % 47,35 % 168.312,0 0,3 % 99,37 %
F=1 346.088 52,65 % 100,0 % 346.088,0 0,63 % 100,0 %
Lustro
Elementos gramaticais Documentos Frec. norm. (por millón)
1975-1979 978.095 117 17.696
1980-1984 1.669.899 143 30.212
1985-1989 2.019.335 120 36.534
1990-1994 5.414.080 386 97.951
1995-1999 9.829.561 12.422 177.836
2000-2004 7.341.493 9479 132.822
2005-2009 9.536.629 13.877 172.536
2010-2014 10.565.828 14.936 191.156
2015-2019 6.963.086 6055 125.976
2020-2024 419.271 158 7585
Medio
Elementos gramaticais Documentos Frec. norm. (por millón)
Audiovisual 862.260 157 15.600
Internet 111.448 207 2016
Libro 30.178.267 3297 545.983
Revista 7.495.068 9718 135.600
Xornal 16.090.234 44.314 291.103
Orixe
Elementos gramaticais Documentos Frec. norm. (por millón)
Escrita 54.045.239 57.554 977.782
Oral 692.038 139 12.520
Bloque
Elementos gramaticais Documentos Frec. norm. (por millón)
Ficción 20.118.534 2610 363.983
Non ficción 33.926.705 54.944 613.799
Non aplica 692.038 139 12.520
Subtipo
Elementos gramaticais Documentos Frec. norm. (por millón)
Artigo científico 377.729 52 6834
Blog 111.448 207 2016
Conferencia 11.302 6 204
Divulgación 8.897.765 666 160.978
Entrevista 40.899 12 740
Guión 202.918 20 3671
Informativo 119.797 23 2167
Libro de texto 629.718 7 11.393
Memoria 572.724 10 10.362
Novela 14.037.170 240 253.959
Obra de teatro 1.806.925 193 32.691
Programa cultural 100.418 13 1817
Publicidade 8183 29 148
Relato curto 4.071.521 2157 73.662
Revista 7.247.087 9688 131.114
Tertulia 177.500 26 3211
Variedades 233.939 30 4232
Xornal 16.090.234 44.314 291.103
Xénero
Elementos gramaticais Documentos Frec. norm. (por millón)
Dramático 2.009.843 213 36.362
Ensaístico 10.477.936 735 189.566
Narrativo 18.108.691 2397 327.621
Xornalístico 23.448.769 54.209 424.233
Non aplica 692.038 139 12.520
Área temática
Elementos gramaticais Documentos Frec. norm. (por millón)
Economía e política 16.678.151 29.506 301.740
Cultura e artes 5.519.956 9714 99.867
Ciencias sociais 14.201.636 13.717 256.935
Ciencias e tecnoloxía 7.091.911 9841 128.306
Outros 10.109.943 23.539 182.908
Sen clasificar 20.695.338 2689 374.418
Sexo-autor
Elementos gramaticais Documentos Frec. norm. (por millón)
Ambos 1.090.013 232 19.720
Descoñecido 13.233.944 40.062 239.427
Home 31.849.167 12.388 576.213
Muller 7.869.726 4864 142.378
Non aplica 694.427 147 12.564
Sexo-interlocutor
Elementos gramaticais Documentos Frec. norm. (por millón)
Ambos 3069 51 56
Descoñecido 74.058 472 1340
Home 3.047.784 1495 55.140
Muller 1.150.744 909 20.819
Non aplica 50.353.997 57.542 911.000
Non binario 2421 5 44
Non pertinente 105.204 75 1903