| 1 | = Statistiky gramatických značek = #Statistiky_gramatick.2BAP0-ch_zna.2BAQ0-ek |
| 2 | == Nejfrekventovanější tagy (gramatické značky) == #Nejfrekventovan.2BARs-j.2BAWEA7Q_tagy_.28gramatick.2BAOk_zna.2BAQ0-ky.29 |
| 3 | || k7c6 || 41465|| 45.10 ‰|| k7c2 || 24495|| 26.64 ‰|| k1gInSc1 || 18664|| 20.30 ‰|| k1gInSc4 || 13657|| 14.85 ‰|| |
| 4 | || k8xC || 34199|| 37.20 ‰|| k1gFnSc2 || 24267|| 26.39 ‰|| k1gMnSc1 || 16928|| 18.41 ‰|| k9x1 || 13310|| 14.48 ‰|| |
| 5 | || k5mItPp3nSaI || 33307|| 36.23 ‰|| k7c4 || 23616|| 25.69 ‰|| k1gFnSc4 || 16515|| 17.96 ‰|| k7c7 || 13180|| 14.34 ‰|| |
| 6 | || k6d1 || 27762|| 30.20 ‰|| k8xS || 20698|| 22.51 ‰|| k3xPc4yF || 15062|| 16.38 ‰|| k1gInSc6 || 13063|| 14.21 ‰|| |
| 7 | || k1gFnSc1 || 24606|| 26.76 ‰|| k1gInSc2 || 19061|| 20.73 ‰|| k1gFnPc2 || 13979|| 15.20 ‰|| k1gFnSc6 || 12619|| 13.73 ‰|| |
| 8 | |
| 9 | Značkováno pomocí morfologického analyzátoru [http://nlp.fi.muni.cz/projekty/ajka/ ajka], který má pro tento korpus pokrytí 95.19 %. |
| 10 | |
| 11 | A k těmto značkám malé vysvětlení: |
| 12 | |
| 13 | ||Slovní druhy || `k1` - substantiva ||Rod || `gM` - mužský životný ||Osoba || `p1` - 1. os || |
| 14 | || `k2` - adjektiva || `gI` - mužský neživotný || `p2` - 2. os || |
| 15 | || `k3` - zájmena || `gF` - ženský || `p3` - 3. os || |
| 16 | || `k4` - číslovky || `gN` - střední ||Vid || `aP` - perfektivum || |
| 17 | || `k5` - slovesa || `gX` - libovolný || `aI` - imperfektivum || |
| 18 | || `k6` - příslovce ||Číslo || `nS` - jednotné || `aB` - obouvidé || |
| 19 | || `k7` - předložky || `nP` - množné ||Stupňování || `d1` - nominativ || |
| 20 | || `k8` - spojky || Pád || `c?` - pád. č. ? || `d2` - comparativ || |
| 21 | || `k9` - částice ||Negace || `eA` - afirmace || `d3` - superlativ || |
| 22 | || `k0` - citoslovce || `eN` - negace |||| || |
| 23 | |
| 24 | A mnoho dalších [http://nlp.fi.muni.cz/projekty/ajka/tags.ps značek]. |
| 25 | |
| 26 | == Frekvence slovních druhů == #Frekvence_slovn.2BAO0-ch_druh.2BAW8- |
| 27 | || substantiva, `k1` || 33.99 %|| adverbia, `k6` || 5.75 %|| |
| 28 | || adjektiva, `k2` || 13.45 %|| předložky, `k7` || 11.92 %|| |
| 29 | || zájmena, `k3` || 8.30 %|| spojky, `k8` || 5.97 %|| |
| 30 | || číslovky, `k4` || 1.58 %|| partikule, `k9` || 2.67 %|| |
| 31 | || slovesa, `k5` || 14.70 %|| citoslovce, `k0` || 0.01 %|| |
| 32 | || || || zkratky, `kA` || 1.10 %|| |
| 33 | |
| 34 | == Frekvence rodů == #Frekvence_rod.2BAW8- |
| 35 | || mužský životný, `gM` || 14.30 %|| |
| 36 | || mužský neživotný, `gI` || 31.61 %|| |
| 37 | || střední, `gN` || 15.38 %|| |
| 38 | || ženský, `gF` || 38.71 %|| |
| 39 | |
| 40 | == Frekvence pádů == #Frekvence_p.2BAOE-d.2BAW8- |
| 41 | || || singulár|| plurál|| |
| 42 | || pád č. 1, `c1` || 22.58 %|| 6.38 %|| |
| 43 | || pád č. 2, `c2` || 19.07 %|| 11.17 %|| |
| 44 | || pád č. 3, `c3` || 2.55 %|| 0.97 %|| |
| 45 | || pád č. 4, `c4` || 12.88 %|| 4.71 %|| |
| 46 | || pád č. 5, `c5` || 0.07 %|| 0.01 %|| |
| 47 | || pád č. 6, `c6` || 9.88 %|| 2.17 %|| |
| 48 | || pád č. 7, `c7` || 5.85 %|| 1.70 %|| |
| 49 | |
| 50 | == Frekvence slovesných osob == #Frekvence_slovesn.2BAP0-ch_osob |
| 51 | || 1. osoba, `p1` || 6.36 %|| |
| 52 | || 2. osoba, `p2` || 2.93 %|| |
| 53 | || 3. osoba, `p3` || 41.26 %|| |
| 54 | || nezařazeno || 48.97 %|| |
| 55 | |
| 56 | == Frekvence slovesných rodů == #Frekvence_slovesn.2BAP0-ch_rod.2BAW8- |
| 57 | || mužský životný, `gM` || 13.08 %|| |
| 58 | || mužský neživotný, `gI` || 6.34 %|| |
| 59 | || střední, `gN` || 5.98 %|| |
| 60 | || ženský, `gF` || 7.75 %|| |
| 61 | || nezařazeno || 66.86 %|| |
| 62 | |
| 63 | == Frekvence slovesných vidů == #Frekvence_slovesn.2BAP0-ch_vid.2BAW8- |
| 64 | || perfektivum, `aP` || 31.56 %|| |
| 65 | || imperfektivum, `aI` || 66.53 %|| |
| 66 | || obouvidé, `aB` || 1.90 %|| |
| 67 | |
| 68 | == Jednoznačnost slov == #Jednozna.2BAQ0-nost_slov |
| 69 | Následující statistika zachycuje počet přípustných značek na slovo. Jedna přípustná značka znamená, že slovo je jednoznačné, dvě a více značek mají víceznačná slova. |
| 70 | |
| 71 | || Procento jednoznačných slov v textu: || 23.71 %|| |
| 72 | || Procento jednoznačných slov ve slovníku (slova bez opakování): || 27.66 %|| |
| 73 | || Průměrný počet značek u víceznačných slov (text): || 4.62|| |
| 74 | || Průměrný počet značek u víceznačných slov (slovník): || 4.65|| |
| 75 | |
| 76 | Graf znázorňuje počet přípustných značek na slovo v závislosti na precentuálním výskytu v textu (ve slovníku). |
| 77 | |
| 78 | [[BR]] |
| 79 | == A ještě dva zajímavé grafy == #A_je.2BAWE-t.2BARs_dva_zaj.2BAO0-mav.2BAOk_grafy |
| 80 | První graf zachycuje závislost počtu značek v dané procentuální velikosti textu a je omezen jen na prvních 100 nejčastěji se vyskytujících slov. A druhý graf zachycuje stejnou závislost jako první s tím, že osa x má logaritmickou stupnici. |