Čeština
English
  • Vítejte na stránkách NLP Centra!
  • Zapojte se do vývoje softwarových nástrojů!
  • Analýza přirozeného jazyka
  • Vyzkoušejte si korpusy o velikosti knihoven online!
  • Studujte jednu ze specializací!
  • Členové laboratoře

Statistické charakteristiky češtiny

Na této stránce se pokusíme zachytit statistické charakteristiky češtiny zjištěné na základě použití korpusů na FI. Tuto frekvenční analýzu bylo možno provést proto, že se jedná o značkovaný korpus.

Statistiky pro DESAM

Velikost korpusu (počet pozic): 1230983
Počet slov: 974537
Počet různých slov: 122394
Počet různých lemmat: 37588
Počet různých tagů: 1858

Frekvence slov, lemmat

Statistiky gramatických značek

Frekvence písmen, bigramů, trigramů, délka slov