Changes between Initial Version and Version 1 of cs/StatistikyGramatickychZnacek


Ignore:
Timestamp:
Mar 3, 2014, 4:23:58 PM (7 years ago)
Author:
xkocinc
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • cs/StatistikyGramatickychZnacek

    v1 v1  
     1= Statistiky gramatických značek = #Statistiky_gramatick.2BAP0-ch_zna.2BAQ0-ek
     2== Nejfrekventovanější tagy (gramatické značky) == #Nejfrekventovan.2BARs-j.2BAWEA7Q_tagy_.28gramatick.2BAOk_zna.2BAQ0-ky.29
     3|| k7c6 || 41465|| 45.10 ‰|| k7c2 || 24495|| 26.64 ‰|| k1gInSc1 || 18664|| 20.30 ‰|| k1gInSc4 || 13657|| 14.85 ‰||
     4|| k8xC || 34199|| 37.20 ‰|| k1gFnSc2 || 24267|| 26.39 ‰|| k1gMnSc1 || 16928|| 18.41 ‰|| k9x1 || 13310|| 14.48 ‰||
     5|| k5mItPp3nSaI || 33307|| 36.23 ‰|| k7c4 || 23616|| 25.69 ‰|| k1gFnSc4 || 16515|| 17.96 ‰|| k7c7 || 13180|| 14.34 ‰||
     6|| k6d1 || 27762|| 30.20 ‰|| k8xS || 20698|| 22.51 ‰|| k3xPc4yF || 15062|| 16.38 ‰|| k1gInSc6 || 13063|| 14.21 ‰||
     7|| k1gFnSc1 || 24606|| 26.76 ‰|| k1gInSc2 || 19061|| 20.73 ‰|| k1gFnPc2 || 13979|| 15.20 ‰|| k1gFnSc6 || 12619|| 13.73 ‰||
     8
     9Značkováno pomocí morfologického analyzátoru [http://nlp.fi.muni.cz/projekty/ajka/ ajka], který má pro tento korpus pokrytí 95.19 %.
     10
     11A k těmto značkám malé vysvětlení:
     12
     13||Slovní druhy || `k1` - substantiva ||Rod || `gM` - mužský životný ||Osoba || `p1` - 1. os ||
     14|| `k2` - adjektiva || `gI` - mužský neživotný || `p2` - 2. os ||
     15|| `k3` - zájmena || `gF` - ženský || `p3` - 3. os ||
     16|| `k4` - číslovky || `gN` - střední ||Vid || `aP` - perfektivum ||
     17|| `k5` - slovesa || `gX` - libovolný || `aI` - imperfektivum ||
     18|| `k6` - příslovce ||Číslo || `nS` - jednotné || `aB` - obouvidé ||
     19|| `k7` - předložky || `nP` - množné ||Stupňování || `d1` - nominativ ||
     20|| `k8` - spojky || Pád || `c?` - pád. č. ? || `d2` - comparativ ||
     21|| `k9` - částice ||Negace || `eA` - afirmace || `d3` - superlativ ||
     22|| `k0` - citoslovce || `eN` - negace |||| ||
     23
     24A mnoho dalších [http://nlp.fi.muni.cz/projekty/ajka/tags.ps značek].
     25
     26== Frekvence slovních druhů == #Frekvence_slovn.2BAO0-ch_druh.2BAW8-
     27|| substantiva, `k1` || 33.99 %|| adverbia, `k6` || 5.75 %||
     28|| adjektiva, `k2` || 13.45 %|| předložky, `k7` || 11.92 %||
     29|| zájmena, `k3` || 8.30 %|| spojky, `k8` || 5.97 %||
     30|| číslovky, `k4` || 1.58 %|| partikule, `k9` || 2.67 %||
     31|| slovesa, `k5` || 14.70 %|| citoslovce, `k0` || 0.01 %||
     32|| || || zkratky, `kA` || 1.10 %||
     33
     34== Frekvence rodů == #Frekvence_rod.2BAW8-
     35|| mužský životný, `gM` || 14.30 %||
     36|| mužský neživotný, `gI` || 31.61 %||
     37|| střední, `gN` || 15.38 %||
     38|| ženský, `gF` || 38.71 %||
     39
     40== Frekvence pádů == #Frekvence_p.2BAOE-d.2BAW8-
     41|| || singulár|| plurál||
     42|| pád č. 1, `c1` || 22.58 %|| 6.38 %||
     43|| pád č. 2, `c2` || 19.07 %|| 11.17 %||
     44|| pád č. 3, `c3` || 2.55 %|| 0.97 %||
     45|| pád č. 4, `c4` || 12.88 %|| 4.71 %||
     46|| pád č. 5, `c5` || 0.07 %|| 0.01 %||
     47|| pád č. 6, `c6` || 9.88 %|| 2.17 %||
     48|| pád č. 7, `c7` || 5.85 %|| 1.70 %||
     49
     50== Frekvence slovesných osob == #Frekvence_slovesn.2BAP0-ch_osob
     51|| 1. osoba, `p1` || 6.36 %||
     52|| 2. osoba, `p2` || 2.93 %||
     53|| 3. osoba, `p3` || 41.26 %||
     54|| nezařazeno || 48.97 %||
     55
     56== Frekvence slovesných rodů == #Frekvence_slovesn.2BAP0-ch_rod.2BAW8-
     57|| mužský životný, `gM` || 13.08 %||
     58|| mužský neživotný, `gI` || 6.34 %||
     59|| střední, `gN` || 5.98 %||
     60|| ženský, `gF` || 7.75 %||
     61|| nezařazeno || 66.86 %||
     62
     63== Frekvence slovesných vidů == #Frekvence_slovesn.2BAP0-ch_vid.2BAW8-
     64|| perfektivum, `aP` || 31.56 %||
     65|| imperfektivum, `aI` || 66.53 %||
     66|| obouvidé, `aB` || 1.90 %||
     67
     68== Jednoznačnost slov == #Jednozna.2BAQ0-nost_slov
     69Následující  statistika zachycuje počet přípustných značek na slovo. Jedna přípustná  značka znamená, že slovo je jednoznačné, dvě a více značek mají  víceznačná slova.
     70
     71|| Procento jednoznačných slov v textu: || 23.71 %||
     72|| Procento jednoznačných slov ve slovníku (slova bez opakování): || 27.66 %||
     73|| Průměrný počet značek u víceznačných slov (text): || 4.62||
     74|| Průměrný počet značek u víceznačných slov (slovník): || 4.65||
     75
     76Graf znázorňuje počet přípustných značek na slovo v závislosti na precentuálním výskytu v textu (ve slovníku).
     77
     78[[BR]]
     79== A ještě dva zajímavé grafy == #A_je.2BAWE-t.2BARs_dva_zaj.2BAO0-mav.2BAOk_grafy
     80První  graf zachycuje závislost počtu značek v dané procentuální velikosti  textu a je omezen jen na prvních 100 nejčastěji se vyskytujících slov. A  druhý graf zachycuje stejnou závislost jako první s tím, že osa x má  logaritmickou stupnici.