Statistiky gramatických značek
Nejfrekventovanější tagy (gramatické značky)
k7c6 | 41465 | 45.10 ‰ | k7c2 | 24495 | 26.64 ‰ | k1gInSc1 | 18664 | 20.30 ‰ | k1gInSc4 | 13657 | 14.85 ‰
|
k8xC | 34199 | 37.20 ‰ | k1gFnSc2 | 24267 | 26.39 ‰ | k1gMnSc1 | 16928 | 18.41 ‰ | k9x1 | 13310 | 14.48 ‰
|
k5mItPp3nSaI | 33307 | 36.23 ‰ | k7c4 | 23616 | 25.69 ‰ | k1gFnSc4 | 16515 | 17.96 ‰ | k7c7 | 13180 | 14.34 ‰
|
k6d1 | 27762 | 30.20 ‰ | k8xS | 20698 | 22.51 ‰ | k3xPc4yF | 15062 | 16.38 ‰ | k1gInSc6 | 13063 | 14.21 ‰
|
k1gFnSc1 | 24606 | 26.76 ‰ | k1gInSc2 | 19061 | 20.73 ‰ | k1gFnPc2 | 13979 | 15.20 ‰ | k1gFnSc6 | 12619 | 13.73 ‰
|
Značkováno pomocí morfologického analyzátoru ajka, který má pro tento korpus pokrytí 95.19 %.
A k těmto značkám malé vysvětlení:
Slovní druhy | Rod | Osoba | Stupňování
|
k1 - substantiva | gM - mužský životný | p1 - 1. os | d1 - nominativ
|
k2 - adjektiva | gI - mužský neživotný | p2 - 2. os | d2 - comparativ
|
k3 - zájmena | gF - ženský | p3 - 3. os | d3 - superlativ
|
k4 - číslovky | gN - střední | Vid
|
k5 - slovesa | gX - libovolný | aP - perfektivum
|
k6 - příslovce | Číslo | aI - imperfektivum
|
k7 - předložky | nS - jednotné | aB - obouvidé
|
k8 - spojky | nP - množné | Negace
|
k9 - částice | Pád | eA - afirmace
|
k0 - citoslovce | c? - pád. č. ? | eN - negace
|
A mnoho dalších značek.
Frekvence slovních druhů
substantiva, k1 | 33.99 % | adverbia, k6 | 5.75 %
|
adjektiva, k2 | 13.45 % | předložky, k7 | 11.92 %
|
zájmena, k3 | 8.30 % | spojky, k8 | 5.97 %
|
číslovky, k4 | 1.58 % | partikule, k9 | 2.67 %
|
slovesa, k5 | 14.70 % | citoslovce, k0 | 0.01 %
|
| | zkratky, kA | 1.10 %
|
Frekvence rodů
mužský životný, gM | 14.30 %
|
mužský neživotný, gI | 31.61 %
|
střední, gN | 15.38 %
|
ženský, gF | 38.71 %
|
Frekvence pádů
| singulár | plurál
|
pád č. 1, c1 | 22.58 % | 6.38 %
|
pád č. 2, c2 | 19.07 % | 11.17 %
|
pád č. 3, c3 | 2.55 % | 0.97 %
|
pád č. 4, c4 | 12.88 % | 4.71 %
|
pád č. 5, c5 | 0.07 % | 0.01 %
|
pád č. 6, c6 | 9.88 % | 2.17 %
|
pád č. 7, c7 | 5.85 % | 1.70 %
|
Frekvence slovesných osob
1. osoba, p1 | 6.36 %
|
2. osoba, p2 | 2.93 %
|
3. osoba, p3 | 41.26 %
|
nezařazeno | 48.97 %
|
Frekvence slovesných rodů
mužský životný, gM | 13.08 %
|
mužský neživotný, gI | 6.34 %
|
střední, gN | 5.98 %
|
ženský, gF | 7.75 %
|
nezařazeno | 66.86 %
|
Frekvence slovesných vidů
perfektivum, aP | 31.56 %
|
imperfektivum, aI | 66.53 %
|
obouvidé, aB | 1.90 %
|
Jednoznačnost slov
Následující statistika zachycuje počet přípustných značek na slovo. Jedna přípustná značka znamená, že slovo je jednoznačné, dvě a více značek mají víceznačná slova.
Procento jednoznačných slov v textu: | 23.71 %
|
Procento jednoznačných slov ve slovníku (slova bez opakování): | 27.66 %
|
Průměrný počet značek u víceznačných slov (text): | 4.62
|
Průměrný počet značek u víceznačných slov (slovník): | 4.65
|
Graf znázorňuje počet přípustných značek na slovo v závislosti na precentuálním výskytu v textu (ve slovníku).
A ještě dva zajímavé grafy
První graf zachycuje závislost počtu značek v dané procentuální velikosti textu a je omezen jen na prvních 100 nejčastěji se vyskytujících slov. A druhý graf zachycuje stejnou závislost jako první s tím, že osa x má logaritmickou stupnici.