Statistické charakteristiky češtiny


Na této stránce se pokusíme zachytit statistické charakteristiky češtiny zjištěné na základě použití korpusů na FI. Tuto frekvenční analýzu bylo možno provést proto, že se jedná o značkovaný korpus.

Statistiky pro DESAM

Velikost korpusu (počet pozic):

  1230983

Počet slov:

  974537

Počet různých slov:

  122394

Počet různých lemmat:

  37588

Počet různých tagů:

  1858

Frekvence slov, lemmat

Statistiky gramatických značek

Frekvence písmen, bigramů, trigramů, délka slov


 

stat cestiny (naposledy editoval xhancar dne 2008-03-23 09:34:13)