Changes between Version 1 and Version 2 of cs/StopList


Ignore:
Timestamp:
Mar 11, 2014 2:29:47 PM (6 years ago)
Author:
xkocinc
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • cs/StopList

    v1 v2  
    1 = Český stoplist = #A.2BAQw-esk.2BAP0_stoplist
    2       Stoplist je seznam slov, které díky své vysoké frekvenci v textu  ztrácejí význam pro sémantickou analýzu věty. Protože mají tato slova ve  větě význam spíše gramatický, lze je tedy bez větší újmy na  srozumitelnosti sdělení z věty vypustit. Jedná se především o spojky a  předložky, tedy slova velmi krátká. Díky jejich frekvenci se totiž na  nich výrazněji projevila asimilace a redukce. [[BR]]      Metoda výběru slov do stoplistu podle frekvence pochopitelně může  produkovat různě zkreslené výsledky. Hlavní příčinou je to, že  frekvenční hranice těchto slov není a také nikdy nemůže být přesně  určena. Míra srozumitelnosti (a jednoznačnosti) sdělení bez daného slova  je totiž do velké míry subjektivní. Navíc na frekvenci závisí pouze  "statisticky". Existuje totiž celá řada slov, která se používají z  globálního hlediska poměrně zřídka a přesto nemají pro analýzu věty  žádný význam, například tzv. "rétorické berličky" (vlastně,  prostě,.....) nebo také podmět či předmět, který stojí ve větě, přestože  je jednoznačně znám z kontextu. Na druhé straně, některá slova  relativně frekventovaná nelze z věty bez určitého posunu ve významu  vypustit. Dalším, ale neméně podstatným zkreslujícím faktorem je často  nereprezentativnost zdroje dat. Zdrojem pro statistiky a výzkumy  podobného typu jsou pochopitelně zpravidla korpusy. Přestože jsou  korpusy velmi obsáhlé a jejich tvůrci se snaží co nejvhodnějším výběrem  textů o jejich různorodost, zdrojem většiny je především denní tisk  (díky jeho kvantitě a dostupnosti v elektronickém formátu). Proto jsou  některé vlastnosti korpusů podstatnou měrou ovlivněny publicistickým  stylem a v některých statistikách je to také zřetelně znát. Vypovídá o  tom např. četnost slov jako jsou "koruna", "strana" nebo dokonce  "ODS"... Zřejmě také korpusy z pochopitelných důvodů neobsahují dostatek  vzorků mluvené češtiny, která je ale v reálném životě mnohem častěji  používaná než psaná, a proto je dle mého soudu pro tvorbu statistik  velmi směrodatná. Pochopitelně existují i vyvážené korpusy (British  National Corpus), které velmi věrně odrážejí soudobý jazyk. V současné  době jich ale není mnoho, alespoň co se těch rozsáhlejších týče. [[BR]]      Objektivnost následujícího stoplistu a s ním spojených statistik  jsem se pokusil alespoň trochu zvýšit tím, že jsem čerpal ze dvou zdrojů  (z Českého národního korpusu a korpusu ESO). Navíc jsem se snažil brát  zřetel na výskyt slova na začátku a uprostřed věty. [[BR]]      Počet výskytů je průměr součtu absolutních výskytů v obou korpusech  uvedený v procentech vůči součtu celkového počtu pozic obou korpusů.  Díky tomu, že mnou používané korpusové manažery jsou case-sensitive,  odlišil jsem od sebe výskyty slov uprostřed věty (všechny znaky malými  písmeny) a výskyty na začátku věty (první písmeno velké, ostatní malá).  Statisticky nevýznamný vzorek jsou výskyty slov psaných jen velkými  písmeny, proto jsem je zanedbal. Zvýrazněna jsou významová slova.[[BR]]      Na samostatnou stránku připojuji také  [[StoplistZakladnichTvaru| Stoplist základních tvarů]]  
     1= Český stoplist =
     2
     3Stoplist je seznam slov, které díky své vysoké frekvenci v textu  ztrácejí význam pro sémantickou analýzu věty. Protože mají tato slova ve  větě význam spíše gramatický, lze je tedy bez větší újmy na  srozumitelnosti sdělení z věty vypustit. Jedná se především o spojky a  předložky, tedy slova velmi krátká. Díky jejich frekvenci se totiž na  nich výrazněji projevila asimilace a redukce.
     4
     5Metoda výběru slov do stoplistu podle frekvence pochopitelně může  produkovat různě zkreslené výsledky. Hlavní příčinou je to, že  frekvenční hranice těchto slov není a také nikdy nemůže být přesně  určena. Míra srozumitelnosti (a jednoznačnosti) sdělení bez daného slova  je totiž do velké míry subjektivní. Navíc na frekvenci závisí pouze  "statisticky". Existuje totiž celá řada slov, která se používají z  globálního hlediska poměrně zřídka a přesto nemají pro analýzu věty  žádný význam, například tzv. "rétorické berličky" (vlastně,  prostě,.....) nebo také podmět či předmět, který stojí ve větě, přestože  je jednoznačně znám z kontextu. Na druhé straně, některá slova  relativně frekventovaná nelze z věty bez určitého posunu ve významu  vypustit. Dalším, ale neméně podstatným zkreslujícím faktorem je často  nereprezentativnost zdroje dat. Zdrojem pro statistiky a výzkumy  podobného typu jsou pochopitelně zpravidla korpusy. Přestože jsou  korpusy velmi obsáhlé a jejich tvůrci se snaží co nejvhodnějším výběrem  textů o jejich různorodost, zdrojem většiny je především denní tisk  (díky jeho kvantitě a dostupnosti v elektronickém formátu). Proto jsou  některé vlastnosti korpusů podstatnou měrou ovlivněny publicistickým  stylem a v některých statistikách je to také zřetelně znát. Vypovídá o  tom např. četnost slov jako jsou "koruna", "strana" nebo dokonce  "ODS"... Zřejmě také korpusy z pochopitelných důvodů neobsahují dostatek  vzorků mluvené češtiny, která je ale v reálném životě mnohem častěji  používaná než psaná, a proto je dle mého soudu pro tvorbu statistik  velmi směrodatná. Pochopitelně existují i vyvážené korpusy (British  National Corpus), které velmi věrně odrážejí soudobý jazyk. V současné  době jich ale není mnoho, alespoň co se těch rozsáhlejších týče.
     6
     7Objektivnost následujícího stoplistu a s ním spojených statistik  jsem se pokusil alespoň trochu zvýšit tím, že jsem čerpal ze dvou zdrojů  (z Českého národního korpusu a korpusu ESO). Navíc jsem se snažil brát  zřetel na výskyt slova na začátku a uprostřed věty. 
     8
     9Počet výskytů je průměr součtu absolutních výskytů v obou korpusech  uvedený v procentech vůči součtu celkového počtu pozic obou korpusů.  Díky tomu, že mnou používané korpusové manažery jsou case-sensitive,  odlišil jsem od sebe výskyty slov uprostřed věty (všechny znaky malými  písmeny) a výskyty na začátku věty (první písmeno velké, ostatní malá).  Statisticky nevýznamný vzorek jsou výskyty slov psaných jen velkými  písmeny, proto jsem je zanedbal. Zvýrazněna jsou významová slova.
     10
     11
     12Na samostatnou stránku připojuji také  [[StoplistZakladnichTvaru| Stoplist základních tvarů]]  
    313
    414'''Frekvence slov v textu'''|| '''SLOVO''' || '''               Výskyty uprostřed věty''' || '''            Výskyty na začátku věty''' || '''Celkem výskytů''' || '''Procento výskytů na začátku věty''' ||