Statistické charakteristiky češtiny
Na této stránce se pokusíme zachytit statistické charakteristiky češtiny zjištěné na základě použití korpusů na FI. Tuto frekvenční analýzu bylo možno provést proto, že se jedná o značkovaný korpus.
Statistiky pro DESAM
Velikost korpusu (počet pozic): |
1230983 |
Počet slov: |
974537 |
Počet různých slov: |
122394 |
Počet různých lemmat: |
37588 |
Počet různých tagů: |
1858 |