Listaxe de documentos contidos na base de datos
Ata o momento incorporáronse ao CORGA 758 xornais (exemplares completos d’A Nosa Terra, A Peneira, De Luns a Venres, Diario Oficial de Galicia, Galicia Hoxe, Novas do Eixo Atlántico, O Correo Galego, O Xornal de Galicia, Sermos Galiza, Terra chá xa, Tempos Galegos e noticias soltas de La Voz de Galicia), 348 revistas (entre elas números de Código Cero, Cerna, Consumer Eroski, Díxitos, Entregas de Comunicación Cultural, Disquecool, Feiraco, Galicia Internacional, GCiencia, Luzes, Man Común, Petroglifo, Teatro do Noroeste, Teima, Tempos Novos etc.), 220 novelas, 196 ensaios, 144 coleccións de relato, 163 obras de teatro, 20 guións televisivos, 203 entradas de blogs e preto de 69 horas de transcricións sonoras. A amplitude de documentos dos que consta o CORGA así como os criterios empregados na súa selección permítennos considerar este corpus representativo do uso lingüístico do galego actual.
No que se refire ao tamaño, a presente versión do CORGA, a 4.1, consta de 45.665.649 palabras, incluídas as cifras (54.737.277 elementos gramaticais). Hai, non obstante, un subconxunto de 560.193 formas gráficas sobre as que non se poden facer buscas, pois son unidades que aparecen en fragmentos textuais que están nunha lingua distinta do galego ou aparecen en notas de tipo bibliográfico, resultando un total de 45.105.456 formas ortográficas sobre as que si se poden realizar consultas, das cales 635.552 son formas diferentes.
As seguintes táboas amosan a distribución de frecuencias do corpus segundo os diversos parámetros de clasificación dos documentos, primeiramente por palabras e deseguido por elementos gramaticais.
Palabras ortográficas
Frecuencias |
Frecuencia |
Palabras ortográficas |
Frecuencia normalizada |
Frecuencia normalizada acumulada |
Frecuencia das palabras |
Frecuencia normalizada |
Frecuencia normalizada acumulada |
> 5000 |
840 |
0,13 % |
0,13 % |
34.191.273,0 |
65,39 % |
65,39 % |
1000 < F ≤ 5000 |
3512 |
0,53 % |
0,66 % |
7.297.936,0 |
13,96 % |
79,34 % |
500 < F ≤ 1000 |
3672 |
0,56 % |
1,22 % |
2.572.333,0 |
4,92 % |
84,26 % |
100 < F ≤ 500 |
19.310 |
2,93 % |
4,14 % |
4.181.457,0 |
8,0 % |
92,26 % |
25 < F ≤ 100 |
40.898 |
6,2 % |
10,34 % |
2.050.644,0 |
3,92 % |
96,18 % |
10 < F ≤ 25 |
47.356 |
7,18 % |
17,51 % |
774.310,0 |
1,48 % |
97,66 % |
4 < F ≤ 10 |
71.244 |
10,8 % |
28,31 % |
490.235,0 |
0,94 % |
98,6 % |
2 < F ≤4 |
72.691 |
11,01 % |
39,32 % |
246.191,0 |
0,47 % |
99,07 % |
F=2 |
86.727 |
13,14 % |
52,46 % |
173.454,0 |
0,33 % |
99,4 % |
F=1 |
313.714 |
47,54 % |
100,0 % |
313.714,0 |
0,6 % |
100,0 % |
Lustro |
|
Palabras ortográficas |
Documentos |
Frec. norm. (por millón) |
1975-1979 |
809.162 |
117 |
15.474 |
1980-1984 |
1.341.520 |
143 |
25.655 |
1985-1989 |
1.642.013 |
120 |
31.401 |
1990-1994 |
4.383.743 |
386 |
83.833 |
1995-1999 |
8.047.538 |
12.422 |
153.897 |
2000-2004 |
6.042.084 |
9479 |
115.546 |
2005-2009 |
7.915.636 |
13.877 |
151.375 |
2010-2014 |
8.757.570 |
14.936 |
167.476 |
2015-2019 |
5.826.777 |
6055 |
111.429 |
2020-2024 |
339.413 |
158 |
6491 |
Medio |
|
Palabras ortográficas |
Documentos |
Frec. norm. (por millón) |
Audiovisual |
814.222 |
157 |
15.571 |
Internet |
92.228 |
207 |
1764 |
Libro |
24.377.481 |
3297 |
466.184 |
Revista |
6.287.920 |
9718 |
120.247 |
Xornal |
13.533.605 |
44.314 |
258.811 |
Orixe |
|
Palabras ortográficas |
Documentos |
Frec. norm. (por millón) |
Escrita |
44.415.888 |
57.554 |
849.389 |
Oral |
689.568 |
139 |
13.187 |
Bloque |
|
Palabras ortográficas |
Documentos |
Frec. norm. (por millón) |
Ficción |
15.921.023 |
2610 |
304.466 |
Non ficción |
28.494.865 |
54.944 |
544.923 |
Non aplica |
689.568 |
139 |
13.187 |
Subtipo |
|
Palabras ortográficas |
Documentos |
Frec. norm. (por millón) |
Artigo científico |
320.423 |
52 |
6128 |
Blog |
92.228 |
207 |
1764 |
Conferencia |
10.960 |
6 |
210 |
Divulgación |
7.484.592 |
666 |
143.132 |
Entrevista |
39.393 |
12 |
753 |
Guión |
148.534 |
20 |
2840 |
Informativo |
115.684 |
23 |
2212 |
Libro de texto |
507.517 |
7 |
9706 |
Memoria |
473.503 |
10 |
9055 |
Novela |
11.147.941 |
240 |
213.188 |
Obra de teatro |
1.367.349 |
193 |
26.149 |
Programa cultural |
104.051 |
13 |
1990 |
Publicidade |
8254 |
29 |
158 |
Relato curto |
3.257.199 |
2157 |
62.289 |
Revista |
6.082.997 |
9688 |
116.328 |
Tertulia |
174.939 |
26 |
3345 |
Variedades |
236.287 |
30 |
4519 |
Xornal |
13.533.605 |
44.314 |
258.811 |
Xénero |
|
Palabras ortográficas |
Documentos |
Frec. norm. (por millón) |
Dramático |
1.515.883 |
213 |
28.989 |
Ensaístico |
8.786.035 |
735 |
168.020 |
Narrativo |
14.405.140 |
2397 |
275.477 |
Xornalístico |
19.708.830 |
54.209 |
376.903 |
Non aplica |
689.568 |
139 |
13.187 |
Área temática |
|
Palabras ortográficas |
Documentos |
Frec. norm. (por millón) |
Economía e política |
14.030.366 |
29.506 |
268.310 |
Cultura e artes |
4.658.588 |
9714 |
89.089 |
Ciencias sociais |
11.954.037 |
13.717 |
228.604 |
Ciencias e tecnoloxía |
5.942.875 |
9841 |
113.649 |
Outros |
8.500.084 |
23.539 |
162.552 |
Sen clasificar |
16.516.742 |
2689 |
315.859 |
Sexo-autor |
|
Palabras ortográficas |
Documentos |
Frec. norm. (por millón) |
Ambos |
884.150 |
232 |
16.908 |
Descoñecido |
11.168.211 |
40.062 |
213.576 |
Home |
25.898.857 |
12.388 |
495.278 |
Muller |
6.462.506 |
4864 |
123.586 |
Non aplica |
691.732 |
147 |
13.228 |
Sexo-interlocutor |
|
Palabras ortográficas |
Documentos |
Frec. norm. (por millón) |
Ambos |
2340 |
51 |
45 |
Descoñecido |
60.664 |
472 |
1160 |
Home |
2.550.959 |
1495 |
48.783 |
Muller |
957.269 |
909 |
18.306 |
Non aplica |
41.443.167 |
57.542 |
792.540 |
Non binario |
1859 |
5 |
36 |
Non pertinente |
89.198 |
75 |
1706 |
Elementos gramaticais
Frecuencias |
Frecuencia |
Elementos gramaticais |
Frecuencia normalizada |
Frecuencia normalizada acumulada |
Frecuencia dos elementos |
Frecuencia normalizada |
Frecuencia normalizada acumulada |
> 5000 |
754 |
0,11 % |
0,11 % |
38.578.723,0 |
69,8 % |
69,8 % |
1000 < F ≤ 5000 |
3348 |
0,51 % |
0,62 % |
6.929.880,0 |
12,54 % |
82,33 % |
500 < F ≤ 1000 |
3431 |
0,52 % |
1,15 % |
2.392.419,0 |
4,33 % |
86,66 % |
100 < F ≤ 500 |
17.430 |
2,65 % |
3,8 % |
3.803.652,0 |
6,88 % |
93,54 % |
25 < F ≤ 100 |
34.911 |
5,31 % |
9,11 % |
1.759.504,0 |
3,18 % |
96,73 % |
10 < F ≤ 25 |
39.695 |
6,04 % |
15,15 % |
647.959,0 |
1,17 % |
97,9 % |
4 < F ≤ 10 |
61.818 |
9,41 % |
24,55 % |
424.681,0 |
0,77 % |
98,67 % |
2 < F ≤4 |
65.652 |
9,99 % |
34,54 % |
222.075,0 |
0,4 % |
99,07 % |
F=2 |
84.156 |
12,8 % |
47,35 % |
168.312,0 |
0,3 % |
99,37 % |
F=1 |
346.088 |
52,65 % |
100,0 % |
346.088,0 |
0,63 % |
100,0 % |
Lustro |
|
Elementos gramaticais |
Documentos |
Frec. norm. (por millón) |
1975-1979 |
978.095 |
117 |
17.696 |
1980-1984 |
1.669.899 |
143 |
30.212 |
1985-1989 |
2.019.335 |
120 |
36.534 |
1990-1994 |
5.414.080 |
386 |
97.951 |
1995-1999 |
9.829.561 |
12.422 |
177.836 |
2000-2004 |
7.341.493 |
9479 |
132.822 |
2005-2009 |
9.536.629 |
13.877 |
172.536 |
2010-2014 |
10.565.828 |
14.936 |
191.156 |
2015-2019 |
6.963.086 |
6055 |
125.976 |
2020-2024 |
419.271 |
158 |
7585 |
Medio |
|
Elementos gramaticais |
Documentos |
Frec. norm. (por millón) |
Audiovisual |
862.260 |
157 |
15.600 |
Internet |
111.448 |
207 |
2016 |
Libro |
30.178.267 |
3297 |
545.983 |
Revista |
7.495.068 |
9718 |
135.600 |
Xornal |
16.090.234 |
44.314 |
291.103 |
Orixe |
|
Elementos gramaticais |
Documentos |
Frec. norm. (por millón) |
Escrita |
54.045.239 |
57.554 |
977.782 |
Oral |
692.038 |
139 |
12.520 |
Bloque |
|
Elementos gramaticais |
Documentos |
Frec. norm. (por millón) |
Ficción |
20.118.534 |
2610 |
363.983 |
Non ficción |
33.926.705 |
54.944 |
613.799 |
Non aplica |
692.038 |
139 |
12.520 |
Subtipo |
|
Elementos gramaticais |
Documentos |
Frec. norm. (por millón) |
Artigo científico |
377.729 |
52 |
6834 |
Blog |
111.448 |
207 |
2016 |
Conferencia |
11.302 |
6 |
204 |
Divulgación |
8.897.765 |
666 |
160.978 |
Entrevista |
40.899 |
12 |
740 |
Guión |
202.918 |
20 |
3671 |
Informativo |
119.797 |
23 |
2167 |
Libro de texto |
629.718 |
7 |
11.393 |
Memoria |
572.724 |
10 |
10.362 |
Novela |
14.037.170 |
240 |
253.959 |
Obra de teatro |
1.806.925 |
193 |
32.691 |
Programa cultural |
100.418 |
13 |
1817 |
Publicidade |
8183 |
29 |
148 |
Relato curto |
4.071.521 |
2157 |
73.662 |
Revista |
7.247.087 |
9688 |
131.114 |
Tertulia |
177.500 |
26 |
3211 |
Variedades |
233.939 |
30 |
4232 |
Xornal |
16.090.234 |
44.314 |
291.103 |
Xénero |
|
Elementos gramaticais |
Documentos |
Frec. norm. (por millón) |
Dramático |
2.009.843 |
213 |
36.362 |
Ensaístico |
10.477.936 |
735 |
189.566 |
Narrativo |
18.108.691 |
2397 |
327.621 |
Xornalístico |
23.448.769 |
54.209 |
424.233 |
Non aplica |
692.038 |
139 |
12.520 |
Área temática |
|
Elementos gramaticais |
Documentos |
Frec. norm. (por millón) |
Economía e política |
16.678.151 |
29.506 |
301.740 |
Cultura e artes |
5.519.956 |
9714 |
99.867 |
Ciencias sociais |
14.201.636 |
13.717 |
256.935 |
Ciencias e tecnoloxía |
7.091.911 |
9841 |
128.306 |
Outros |
10.109.943 |
23.539 |
182.908 |
Sen clasificar |
20.695.338 |
2689 |
374.418 |
Sexo-autor |
|
Elementos gramaticais |
Documentos |
Frec. norm. (por millón) |
Ambos |
1.090.013 |
232 |
19.720 |
Descoñecido |
13.233.944 |
40.062 |
239.427 |
Home |
31.849.167 |
12.388 |
576.213 |
Muller |
7.869.726 |
4864 |
142.378 |
Non aplica |
694.427 |
147 |
12.564 |
Sexo-interlocutor |
|
Elementos gramaticais |
Documentos |
Frec. norm. (por millón) |
Ambos |
3069 |
51 |
56 |
Descoñecido |
74.058 |
472 |
1340 |
Home |
3.047.784 |
1495 |
55.140 |
Muller |
1.150.744 |
909 |
20.819 |
Non aplica |
50.353.997 |
57.542 |
911.000 |
Non binario |
2421 |
5 |
44 |
Non pertinente |
105.204 |
75 |
1903 |