wiki:cs/StatistikaCestina

Version 2 (modified by xkocinc, 10 years ago) (diff)

--

Statistické charakteristiky češtiny

Na této stránce se pokusíme zachytit statistické charakteristiky češtiny zjištěné na základě použití korpusů na FI. Tuto frekvenční analýzu bylo možno provést proto, že se jedná o značkovaný korpus.

Statistiky pro DESAM

Velikost korpusu (počet pozic): 1230983
Počet slov: 974537
Počet různých slov: 122394
Počet různých lemmat: 37588
Počet různých tagů: 1858

Frekvence slov, lemmat

Statistiky gramatických značek

Frekvence písmen, bigramů, trigramů, délka slov