= Statistiky gramatických značek = #Statistiky_gramatick.2BAP0-ch_zna.2BAQ0-ek == Nejfrekventovanější tagy (gramatické značky) == #Nejfrekventovan.2BARs-j.2BAWEA7Q_tagy_.28gramatick.2BAOk_zna.2BAQ0-ky.29 || k7c6 || 41465|| 45.10 ‰|| k7c2 || 24495|| 26.64 ‰|| k1gInSc1 || 18664|| 20.30 ‰|| k1gInSc4 || 13657|| 14.85 ‰|| || k8xC || 34199|| 37.20 ‰|| k1gFnSc2 || 24267|| 26.39 ‰|| k1gMnSc1 || 16928|| 18.41 ‰|| k9x1 || 13310|| 14.48 ‰|| || k5mItPp3nSaI || 33307|| 36.23 ‰|| k7c4 || 23616|| 25.69 ‰|| k1gFnSc4 || 16515|| 17.96 ‰|| k7c7 || 13180|| 14.34 ‰|| || k6d1 || 27762|| 30.20 ‰|| k8xS || 20698|| 22.51 ‰|| k3xPc4yF || 15062|| 16.38 ‰|| k1gInSc6 || 13063|| 14.21 ‰|| || k1gFnSc1 || 24606|| 26.76 ‰|| k1gInSc2 || 19061|| 20.73 ‰|| k1gFnPc2 || 13979|| 15.20 ‰|| k1gFnSc6 || 12619|| 13.73 ‰|| Značkováno pomocí morfologického analyzátoru [http://nlp.fi.muni.cz/projekty/ajka/ ajka], který má pro tento korpus pokrytí 95.19 %. A k těmto značkám malé vysvětlení: ||Slovní druhy || Rod ||Osoba ||Stupňování|| ||`k1` - substantiva || `gM` - mužský životný || `p1` - 1. os || `d1` - nominativ || || `k2` - adjektiva || `gI` - mužský neživotný || `p2` - 2. os || `d2` - comparativ || || `k3` - zájmena || `gF` - ženský || `p3` - 3. os ||`d3` - superlativ || || `k4` - číslovky || `gN` - střední ||Vid || || `k5` - slovesa || `gX` - libovolný || `aP` - perfektivum || || `k6` - příslovce ||Číslo || `aI` - imperfektivum || || `k7` - předložky || `nS` - jednotné || `aB` - obouvidé || || `k8` - spojky || `nP` - množné || Negace || || `k9` - částice ||Pád|| `eA` - afirmace || || `k0` - citoslovce || `c?` - pád. č. ? || `eN` - negace || A mnoho dalších [http://nlp.fi.muni.cz/projekty/ajka/tags.ps značek]. == Frekvence slovních druhů == #Frekvence_slovn.2BAO0-ch_druh.2BAW8- || substantiva, `k1` || 33.99 %|| adverbia, `k6` || 5.75 %|| || adjektiva, `k2` || 13.45 %|| předložky, `k7` || 11.92 %|| || zájmena, `k3` || 8.30 %|| spojky, `k8` || 5.97 %|| || číslovky, `k4` || 1.58 %|| partikule, `k9` || 2.67 %|| || slovesa, `k5` || 14.70 %|| citoslovce, `k0` || 0.01 %|| || || || zkratky, `kA` || 1.10 %|| == Frekvence rodů == #Frekvence_rod.2BAW8- || mužský životný, `gM` || 14.30 %|| || mužský neživotný, `gI` || 31.61 %|| || střední, `gN` || 15.38 %|| || ženský, `gF` || 38.71 %|| == Frekvence pádů == #Frekvence_p.2BAOE-d.2BAW8- || || singulár|| plurál|| || pád č. 1, `c1` || 22.58 %|| 6.38 %|| || pád č. 2, `c2` || 19.07 %|| 11.17 %|| || pád č. 3, `c3` || 2.55 %|| 0.97 %|| || pád č. 4, `c4` || 12.88 %|| 4.71 %|| || pád č. 5, `c5` || 0.07 %|| 0.01 %|| || pád č. 6, `c6` || 9.88 %|| 2.17 %|| || pád č. 7, `c7` || 5.85 %|| 1.70 %|| == Frekvence slovesných osob == #Frekvence_slovesn.2BAP0-ch_osob || 1. osoba, `p1` || 6.36 %|| || 2. osoba, `p2` || 2.93 %|| || 3. osoba, `p3` || 41.26 %|| || nezařazeno || 48.97 %|| == Frekvence slovesných rodů == #Frekvence_slovesn.2BAP0-ch_rod.2BAW8- || mužský životný, `gM` || 13.08 %|| || mužský neživotný, `gI` || 6.34 %|| || střední, `gN` || 5.98 %|| || ženský, `gF` || 7.75 %|| || nezařazeno || 66.86 %|| == Frekvence slovesných vidů == #Frekvence_slovesn.2BAP0-ch_vid.2BAW8- || perfektivum, `aP` || 31.56 %|| || imperfektivum, `aI` || 66.53 %|| || obouvidé, `aB` || 1.90 %|| == Jednoznačnost slov == #Jednozna.2BAQ0-nost_slov Následující statistika zachycuje počet přípustných značek na slovo. Jedna přípustná značka znamená, že slovo je jednoznačné, dvě a více značek mají víceznačná slova. || Procento jednoznačných slov v textu: || 23.71 %|| || Procento jednoznačných slov ve slovníku (slova bez opakování): || 27.66 %|| || Průměrný počet značek u víceznačných slov (text): || 4.62|| || Průměrný počet značek u víceznačných slov (slovník): || 4.65|| Graf znázorňuje počet přípustných značek na slovo v závislosti na precentuálním výskytu v textu (ve slovníku). [[Image(/trac/research/raw-attachment/wiki/cs/StatistikyGramatickychZnacek/jednoznac.desam.cz.1.png)]] [[Image(/trac/research/raw-attachment/wiki/cs/StatistikyGramatickychZnacek/jednoznac.desam.cz.2.png)]] == A ještě dva zajímavé grafy == #A_je.2BAWE-t.2BARs_dva_zaj.2BAO0-mav.2BAOk_grafy První graf zachycuje závislost počtu značek v dané procentuální velikosti textu a je omezen jen na prvních 100 nejčastěji se vyskytujících slov. A druhý graf zachycuje stejnou závislost jako první s tím, že osa x má logaritmickou stupnici. [[Image(/trac/research/raw-attachment/wiki/cs/StatistikyGramatickychZnacek/tag.desam.cz.1.png)]] [[Image(/trac/research/raw-attachment/wiki/cs/StatistikyGramatickychZnacek/tag.desam.cz.0.png)]]