Changes between Initial Version and Version 1 of cs/StatistikyGramatickychZnacek


Ignore:
Timestamp:
Mar 3, 2014, 4:23:58 PM (9 years ago)
Author:
xkocinc
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
 • cs/StatistikyGramatickychZnacek

  v1 v1  
   1= Statistiky gramatických značek = #Statistiky_gramatick.2BAP0-ch_zna.2BAQ0-ek
   2== Nejfrekventovanější tagy (gramatické značky) == #Nejfrekventovan.2BARs-j.2BAWEA7Q_tagy_.28gramatick.2BAOk_zna.2BAQ0-ky.29
   3|| k7c6 || 41465|| 45.10 ‰|| k7c2 || 24495|| 26.64 ‰|| k1gInSc1 || 18664|| 20.30 ‰|| k1gInSc4 || 13657|| 14.85 ‰||
   4|| k8xC || 34199|| 37.20 ‰|| k1gFnSc2 || 24267|| 26.39 ‰|| k1gMnSc1 || 16928|| 18.41 ‰|| k9x1 || 13310|| 14.48 ‰||
   5|| k5mItPp3nSaI || 33307|| 36.23 ‰|| k7c4 || 23616|| 25.69 ‰|| k1gFnSc4 || 16515|| 17.96 ‰|| k7c7 || 13180|| 14.34 ‰||
   6|| k6d1 || 27762|| 30.20 ‰|| k8xS || 20698|| 22.51 ‰|| k3xPc4yF || 15062|| 16.38 ‰|| k1gInSc6 || 13063|| 14.21 ‰||
   7|| k1gFnSc1 || 24606|| 26.76 ‰|| k1gInSc2 || 19061|| 20.73 ‰|| k1gFnPc2 || 13979|| 15.20 ‰|| k1gFnSc6 || 12619|| 13.73 ‰||
   8
   9Značkováno pomocí morfologického analyzátoru [http://nlp.fi.muni.cz/projekty/ajka/ ajka], který má pro tento korpus pokrytí 95.19 %.
   10
   11A k těmto značkám malé vysvětlení:
   12
   13||Slovní druhy || `k1` - substantiva ||Rod || `gM` - mužský životný ||Osoba || `p1` - 1. os ||
   14|| `k2` - adjektiva || `gI` - mužský neživotný || `p2` - 2. os ||
   15|| `k3` - zájmena || `gF` - ženský || `p3` - 3. os ||
   16|| `k4` - číslovky || `gN` - střední ||Vid || `aP` - perfektivum ||
   17|| `k5` - slovesa || `gX` - libovolný || `aI` - imperfektivum ||
   18|| `k6` - příslovce ||Číslo || `nS` - jednotné || `aB` - obouvidé ||
   19|| `k7` - předložky || `nP` - množné ||Stupňování || `d1` - nominativ ||
   20|| `k8` - spojky || Pád || `c?` - pád. č. ? || `d2` - comparativ ||
   21|| `k9` - částice ||Negace || `eA` - afirmace || `d3` - superlativ ||
   22|| `k0` - citoslovce || `eN` - negace |||| ||
   23
   24A mnoho dalších [http://nlp.fi.muni.cz/projekty/ajka/tags.ps značek].
   25
   26== Frekvence slovních druhů == #Frekvence_slovn.2BAO0-ch_druh.2BAW8-
   27|| substantiva, `k1` || 33.99 %|| adverbia, `k6` || 5.75 %||
   28|| adjektiva, `k2` || 13.45 %|| předložky, `k7` || 11.92 %||
   29|| zájmena, `k3` || 8.30 %|| spojky, `k8` || 5.97 %||
   30|| číslovky, `k4` || 1.58 %|| partikule, `k9` || 2.67 %||
   31|| slovesa, `k5` || 14.70 %|| citoslovce, `k0` || 0.01 %||
   32|| || || zkratky, `kA` || 1.10 %||
   33
   34== Frekvence rodů == #Frekvence_rod.2BAW8-
   35|| mužský životný, `gM` || 14.30 %||
   36|| mužský neživotný, `gI` || 31.61 %||
   37|| střední, `gN` || 15.38 %||
   38|| ženský, `gF` || 38.71 %||
   39
   40== Frekvence pádů == #Frekvence_p.2BAOE-d.2BAW8-
   41|| || singulár|| plurál||
   42|| pád č. 1, `c1` || 22.58 %|| 6.38 %||
   43|| pád č. 2, `c2` || 19.07 %|| 11.17 %||
   44|| pád č. 3, `c3` || 2.55 %|| 0.97 %||
   45|| pád č. 4, `c4` || 12.88 %|| 4.71 %||
   46|| pád č. 5, `c5` || 0.07 %|| 0.01 %||
   47|| pád č. 6, `c6` || 9.88 %|| 2.17 %||
   48|| pád č. 7, `c7` || 5.85 %|| 1.70 %||
   49
   50== Frekvence slovesných osob == #Frekvence_slovesn.2BAP0-ch_osob
   51|| 1. osoba, `p1` || 6.36 %||
   52|| 2. osoba, `p2` || 2.93 %||
   53|| 3. osoba, `p3` || 41.26 %||
   54|| nezařazeno || 48.97 %||
   55
   56== Frekvence slovesných rodů == #Frekvence_slovesn.2BAP0-ch_rod.2BAW8-
   57|| mužský životný, `gM` || 13.08 %||
   58|| mužský neživotný, `gI` || 6.34 %||
   59|| střední, `gN` || 5.98 %||
   60|| ženský, `gF` || 7.75 %||
   61|| nezařazeno || 66.86 %||
   62
   63== Frekvence slovesných vidů == #Frekvence_slovesn.2BAP0-ch_vid.2BAW8-
   64|| perfektivum, `aP` || 31.56 %||
   65|| imperfektivum, `aI` || 66.53 %||
   66|| obouvidé, `aB` || 1.90 %||
   67
   68== Jednoznačnost slov == #Jednozna.2BAQ0-nost_slov
   69Následující  statistika zachycuje počet přípustných značek na slovo. Jedna přípustná  značka znamená, že slovo je jednoznačné, dvě a více značek mají  víceznačná slova.
   70
   71|| Procento jednoznačných slov v textu: || 23.71 %||
   72|| Procento jednoznačných slov ve slovníku (slova bez opakování): || 27.66 %||
   73|| Průměrný počet značek u víceznačných slov (text): || 4.62||
   74|| Průměrný počet značek u víceznačných slov (slovník): || 4.65||
   75
   76Graf znázorňuje počet přípustných značek na slovo v závislosti na precentuálním výskytu v textu (ve slovníku).
   77
   78[[BR]]
   79== A ještě dva zajímavé grafy == #A_je.2BAWE-t.2BARs_dva_zaj.2BAO0-mav.2BAOk_grafy
   80První  graf zachycuje závislost počtu značek v dané procentuální velikosti  textu a je omezen jen na prvních 100 nejčastěji se vyskytujících slov. A  druhý graf zachycuje stejnou závislost jako první s tím, že osa x má  logaritmickou stupnici.