Statistiky gramatických značek
Nejfrekventovanější tagy (gramatické značky)
k7c6 |
41465 |
45.10 |
k7c2 |
24495 |
26.64 |
k1gInSc1 |
18664 |
20.30 |
k1gInSc4 |
13657 |
14.85 |
k8xC |
34199 |
37.20 |
k1gFnSc2 |
24267 |
26.39 |
k1gMnSc1 |
16928 |
18.41 |
k9x1 |
13310 |
14.48 |
k5mItPp3nSaI |
33307 |
36.23 |
k7c4 |
23616 |
25.69 |
k1gFnSc4 |
16515 |
17.96 |
k7c7 |
13180 |
14.34 |
k6d1 |
27762 |
30.20 |
k8xS |
20698 |
22.51 |
k3xPc4yF |
15062 |
16.38 |
k1gInSc6 |
13063 |
14.21 |
k1gFnSc1 |
24606 |
26.76 |
k1gInSc2 |
19061 |
20.73 |
k1gFnPc2 |
13979 |
15.20 |
k1gFnSc6 |
12619 |
13.73 |
Značkováno pomocí morfologického analyzátoru ajka, který má pro tento korpus pokrytí 95.19 %.
A k těmto značkám malé vysvětlení:
Slovní druhy |
k1 - substantiva |
Rod |
gM - mužský životný |
Osoba |
p1 - 1. os |
k2 - adjektiva |
gI - mužský neživotný |
p2 - 2. os |
|||
k3 - zájmena |
gF - ženský |
p3 - 3. os |
|||
k4 - číslovky |
gN - střední |
Vid |
aP - perfektivum |
||
k5 - slovesa |
gX - libovolný |
aI - imperfektivum |
|||
k6 - příslovce |
Číslo |
nS - jednotné |
aB - obouvidé |
||
k7 - předložky |
nP - množné |
Stupňování |
d1 - nominativ |
||
k8 - spojky |
Pád |
c? - pád. č. ? |
d2 - comparativ |
||
k9 - částice |
Negace |
eA - afirmace |
d3 - superlativ |
||
k0 - citoslovce |
eN - negace |
||||
A mnoho dalších značek.
Frekvence slovních druhů
substantiva, k1 |
33.99 % |
adverbia, k6 |
5.75 % |
adjektiva, k2 |
13.45 % |
předložky, k7 |
11.92 % |
zájmena, k3 |
8.30 % |
spojky, k8 |
5.97 % |
číslovky, k4 |
1.58 % |
partikule, k9 |
2.67 % |
slovesa, k5 |
14.70 % |
citoslovce, k0 |
0.01 % |
zkratky, kA |
1.10 % |
Frekvence rodů
mužský životný, gM |
14.30 % |
mužský neživotný, gI |
31.61 % |
střední, gN |
15.38 % |
ženský, gF |
38.71 % |
Frekvence pádů
singulár |
plurál |
|
pád č. 1, c1 |
22.58 % |
6.38 % |
pád č. 2, c2 |
19.07 % |
11.17 % |
pád č. 3, c3 |
2.55 % |
0.97 % |
pád č. 4, c4 |
12.88 % |
4.71 % |
pád č. 5, c5 |
0.07 % |
0.01 % |
pád č. 6, c6 |
9.88 % |
2.17 % |
pád č. 7, c7 |
5.85 % |
1.70 % |
Frekvence slovesných osob
1. osoba, p1 |
6.36 % |
2. osoba, p2 |
2.93 % |
3. osoba, p3 |
41.26 % |
nezařazeno |
48.97 % |
Frekvence slovesných rodů
mužský životný, gM |
13.08 % |
mužský neživotný, gI |
6.34 % |
střední, gN |
5.98 % |
ženský, gF |
7.75 % |
nezařazeno |
66.86 % |
Frekvence slovesných vidů
perfektivum, aP |
31.56 % |
imperfektivum, aI |
66.53 % |
obouvidé, aB |
1.90 % |
Jednoznačnost slov
Následující statistika zachycuje počet přípustných značek na slovo. Jedna přípustná značka znamená, že slovo je jednoznačné, dvě a více značek mají víceznačná slova.
Procento jednoznačných slov v textu: |
23.71 % |
Procento jednoznačných slov ve slovníku (slova bez opakování): |
27.66 % |
Průměrný počet značek u víceznačných slov (text): |
4.62 |
Průměrný počet značek u víceznačných slov (slovník): |
4.65 |
Graf znázorňuje počet přípustných značek na slovo v závislosti na precentuálním výskytu v textu (ve slovníku).
|
|
A ještě dva zajímavé grafy
První graf zachycuje závislost počtu značek v dané procentuální velikosti textu a je omezen jen na prvních 100 nejčastěji se vyskytujících slov. A druhý graf zachycuje stejnou závislost jako první s tím, že osa x má logaritmickou stupnici.
|
|