wiki:cs/StatistikaCestina

Statistické charakteristiky češtiny

Na této stránce se pokusíme zachytit statistické charakteristiky češtiny zjištěné na základě použití korpusů na FI. Tuto frekvenční analýzu bylo možno provést proto, že se jedná o značkovaný korpus.

Statistiky pro DESAM

Velikost korpusu (počet pozic): 1230983
Počet slov: 974537
Počet různých slov: 122394
Počet různých lemmat: 37588
Počet různých tagů: 1858

Frekvence slov, lemmat

Statistiky gramatických značek

Frekvence písmen, bigramů, trigramů, délka slov

Last modified 6 years ago Last modified on Mar 3, 2014 4:30:33 PM