wiki:cs/StatistikyGramatickychZnacek

Version 1 (modified by xkocinc, 6 years ago) (diff)

--

Statistiky gramatických značek

Nejfrekventovanější tagy (gramatické značky)

k7c6 41465 45.10 ‰ k7c2 24495 26.64 ‰ k1gInSc1 18664 20.30 ‰ k1gInSc4 13657 14.85 ‰
k8xC 34199 37.20 ‰ k1gFnSc2 24267 26.39 ‰ k1gMnSc1 16928 18.41 ‰ k9x1 13310 14.48 ‰
k5mItPp3nSaI 33307 36.23 ‰ k7c4 23616 25.69 ‰ k1gFnSc4 16515 17.96 ‰ k7c7 13180 14.34 ‰
k6d1 27762 30.20 ‰ k8xS 20698 22.51 ‰ k3xPc4yF 15062 16.38 ‰ k1gInSc6 13063 14.21 ‰
k1gFnSc1 24606 26.76 ‰ k1gInSc2 19061 20.73 ‰ k1gFnPc2 13979 15.20 ‰ k1gFnSc6 12619 13.73 ‰

Značkováno pomocí morfologického analyzátoru ajka, který má pro tento korpus pokrytí 95.19 %.

A k těmto značkám malé vysvětlení:

Slovní druhy k1 - substantiva Rod gM - mužský životný Osoba p1 - 1. os
k2 - adjektiva gI - mužský neživotný p2 - 2. os
k3 - zájmena gF - ženský p3 - 3. os
k4 - číslovky gN - střední Vid aP - perfektivum
k5 - slovesa gX - libovolný aI - imperfektivum
k6 - příslovce Číslo nS - jednotné aB - obouvidé
k7 - předložky nP - množné Stupňování d1 - nominativ
k8 - spojky Pád c? - pád. č. ? d2 - comparativ
k9 - částice Negace eA - afirmace d3 - superlativ
k0 - citoslovce eN - negace

A mnoho dalších značek.

Frekvence slovních druhů

substantiva, k1 33.99 % adverbia, k6 5.75 %
adjektiva, k2 13.45 % předložky, k7 11.92 %
zájmena, k3 8.30 % spojky, k8 5.97 %
číslovky, k4 1.58 % partikule, k9 2.67 %
slovesa, k5 14.70 % citoslovce, k0 0.01 %
zkratky, kA 1.10 %

Frekvence rodů

mužský životný, gM 14.30 %
mužský neživotný, gI 31.61 %
střední, gN 15.38 %
ženský, gF 38.71 %

Frekvence pádů

singulár plurál
pád č. 1, c1 22.58 % 6.38 %
pád č. 2, c2 19.07 % 11.17 %
pád č. 3, c3 2.55 % 0.97 %
pád č. 4, c4 12.88 % 4.71 %
pád č. 5, c5 0.07 % 0.01 %
pád č. 6, c6 9.88 % 2.17 %
pád č. 7, c7 5.85 % 1.70 %

Frekvence slovesných osob

1. osoba, p1 6.36 %
2. osoba, p2 2.93 %
3. osoba, p3 41.26 %
nezařazeno 48.97 %

Frekvence slovesných rodů

mužský životný, gM 13.08 %
mužský neživotný, gI 6.34 %
střední, gN 5.98 %
ženský, gF 7.75 %
nezařazeno 66.86 %

Frekvence slovesných vidů

perfektivum, aP 31.56 %
imperfektivum, aI 66.53 %
obouvidé, aB 1.90 %

Jednoznačnost slov

Následující statistika zachycuje počet přípustných značek na slovo. Jedna přípustná značka znamená, že slovo je jednoznačné, dvě a více značek mají víceznačná slova.

Procento jednoznačných slov v textu: 23.71 %
Procento jednoznačných slov ve slovníku (slova bez opakování): 27.66 %
Průměrný počet značek u víceznačných slov (text): 4.62
Průměrný počet značek u víceznačných slov (slovník): 4.65

Graf znázorňuje počet přípustných značek na slovo v závislosti na precentuálním výskytu v textu (ve slovníku).


A ještě dva zajímavé grafy

První graf zachycuje závislost počtu značek v dané procentuální velikosti textu a je omezen jen na prvních 100 nejčastěji se vyskytujících slov. A druhý graf zachycuje stejnou závislost jako první s tím, že osa x má logaritmickou stupnici.

Attachments (4)

Download all attachments as: .zip