= Český stoplist = Stoplist je seznam slov, které díky své vysoké frekvenci v textu ztrácejí význam pro sémantickou analýzu věty. Protože mají tato slova ve větě význam spíše gramatický, lze je tedy bez větší újmy na srozumitelnosti sdělení z věty vypustit. Jedná se především o spojky a předložky, tedy slova velmi krátká. Díky jejich frekvenci se totiž na nich výrazněji projevila asimilace a redukce. Metoda výběru slov do stoplistu podle frekvence pochopitelně může produkovat různě zkreslené výsledky. Hlavní příčinou je to, že frekvenční hranice těchto slov není a také nikdy nemůže být přesně určena. Míra srozumitelnosti (a jednoznačnosti) sdělení bez daného slova je totiž do velké míry subjektivní. Navíc na frekvenci závisí pouze "statisticky". Existuje totiž celá řada slov, která se používají z globálního hlediska poměrně zřídka a přesto nemají pro analýzu věty žádný význam, například tzv. "rétorické berličky" (vlastně, prostě,.....) nebo také podmět či předmět, který stojí ve větě, přestože je jednoznačně znám z kontextu. Na druhé straně, některá slova relativně frekventovaná nelze z věty bez určitého posunu ve významu vypustit. Dalším, ale neméně podstatným zkreslujícím faktorem je často nereprezentativnost zdroje dat. Zdrojem pro statistiky a výzkumy podobného typu jsou pochopitelně zpravidla korpusy. Přestože jsou korpusy velmi obsáhlé a jejich tvůrci se snaží co nejvhodnějším výběrem textů o jejich různorodost, zdrojem většiny je především denní tisk (díky jeho kvantitě a dostupnosti v elektronickém formátu). Proto jsou některé vlastnosti korpusů podstatnou měrou ovlivněny publicistickým stylem a v některých statistikách je to také zřetelně znát. Vypovídá o tom např. četnost slov jako jsou "koruna", "strana" nebo dokonce "ODS"... Zřejmě také korpusy z pochopitelných důvodů neobsahují dostatek vzorků mluvené češtiny, která je ale v reálném životě mnohem častěji používaná než psaná, a proto je dle mého soudu pro tvorbu statistik velmi směrodatná. Pochopitelně existují i vyvážené korpusy (British National Corpus), které velmi věrně odrážejí soudobý jazyk. V současné době jich ale není mnoho, alespoň co se těch rozsáhlejších týče. Objektivnost následujícího stoplistu a s ním spojených statistik jsem se pokusil alespoň trochu zvýšit tím, že jsem čerpal ze dvou zdrojů (z Českého národního korpusu a korpusu ESO). Navíc jsem se snažil brát zřetel na výskyt slova na začátku a uprostřed věty.  Počet výskytů je průměr součtu absolutních výskytů v obou korpusech uvedený v procentech vůči součtu celkového počtu pozic obou korpusů. Díky tomu, že mnou používané korpusové manažery jsou case-sensitive, odlišil jsem od sebe výskyty slov uprostřed věty (všechny znaky malými písmeny) a výskyty na začátku věty (první písmeno velké, ostatní malá). Statisticky nevýznamný vzorek jsou výskyty slov psaných jen velkými písmeny, proto jsem je zanedbal. Zvýrazněna jsou významová slova. Na samostatnou stránku připojuji také [[StoplistZakladnichTvaru| Stoplist základních tvarů]]   '''Frekvence slov v textu'''|| '''SLOVO''' || ''' Výskyty uprostřed věty''' || ''' Výskyty na začátku věty''' || '''Celkem výskytů''' || '''Procento výskytů na začátku věty''' || || a || 2.11470|| 0.11143|| 2.22613|| 5,006|| || v || 1.60243|| 0.23087|| 1.83330|| 12,593|| || se || 1.50427|| 0.00423|| 1.50850|| 0,281|| || na || 1.24863|| 0.10347|| 1.35210|| 7,653|| || je || 0.74507|| 0.06108|| 0.80615|| 7,577|| || že || 0.70938|| 0.00557|| 0.71495|| 0,779|| || o || 0.58508|| 0.04603|| 0.63111|| 7,293|| || s || 0.58867|| 0.03908|| 0.62775|| 6,225|| || z || 0.53856|| 0.04787|| 0.58643|| 8,164|| || do || 0.46202|| 0.02509|| 0.48711|| 5,151|| || i || 0.43144|| 0.04308|| 0.47452|| 9,078|| || to || 0.41652|| 0.05711|| 0.47363|| 12,057|| || k || 0.33589|| 0.03961|| 0.37550|| 10,549|| || ve || 0.33521|| 0.03669|| 0.37189|| 9,864|| || pro || 0.32737|| 0.02930|| 0.35668|| 8,215|| || za || 0.30863|| 0.03497|| 0.34360|| 10,177|| || by || 0.29749|| 0.00007|| 0.29756|| 0,023|| || ale || 0.24520|| 0.03685|| 0.28205|| 13,065|| || si || 0.26640|| 0.00009|| 0.26649|| 0,033|| || po || 0.21693|| 0.04373|| 0.26066|| 16,776|| || jako || 0.22132|| 0.01371|| 0.23503|| 5,835|| || podle || 0.13621|| 0.07053|| 0.20674|| 34,114|| || od || 0.17746|| 0.02071|| 0.19816|| 10,45|| || jsem || 0.18999|| 0.00807|| 0.19807|| 4,075|| || tak || 0.17634|| 0.01557|| 0.19190|| 8,111|| || jsou || 0.17991|| 0.00943|| 0.18934|| 4,981|| || které || 0.18868|| 0.00051|| 0.18920|| 0,27|| || který || 0.18101|| 0.00037|| 0.18138|| 0,205|| || jeho || 0.15663|| 0.01796|| 0.17459|| 10,286|| || však || 0.17229|| 0.00077|| 0.17306|| 0,445|| || bude || 0.15408|| 0.00586|| 0.15993|| 3,663|| || nebo || 0.15463|| 0.00352|| 0.15815|| 2,225|| || už || 0.13977|| 0.01334|| 0.15311|| 8,714|| || jen || 0.14124|| 0.01017|| 0.15141|| 6,716|| || byl || 0.13960|| 0.01115|| 0.15075|| 7,394|| || jak || 0.10976|| 0.03555|| 0.14531|| 24,466|| || u || 0.12126|| 0.02060|| 0.14187|| 14,523|| || co || 0.11623|| 0.02465|| 0.14088|| 17,495|| || při || 0.11594|| 0.02333|| 0.13928|| 16,754|| || až || 0.12503|| 0.00776|| 0.13279|| 5,845|| || aby || 0.12803|| 0.00456|| 0.13259|| 3,437|| || má || 0.12554|| 0.00616|| 0.13170|| 4,679|| || když || 0.09577|| 0.03352|| 0.12929|| 25,926|| || než || 0.12607|| 0.00197|| 0.12805|| 1,539|| || ze || 0.11716|| 0.00805|| 0.12520|| 6,427|| || která || 0.11892|| 0.00028|| 0.11920|| 0,237|| || před || 0.10736|| 0.01112|| 0.11848|| 9,385|| || být || 0.11615|| 0.00072|| 0.11686|| 0,614|| || také || 0.10240|| 0.00990|| 0.11230|| 8,815|| || bylo || 0.10162|| 0.00985|| 0.11147|| 8,835|| || jsme || 0.10080|| 0.00405|| 0.10486|| 3,864|| || není || 0.09052|| 0.01417|| 0.10469|| 13,531|| || jejich || 0.09238|| 0.00924|| 0.10162|| 9,096|| || ještě || 0.09210|| 0.00927|| 0.10137|| 9,143|| || ani || 0.09082|| 0.01025|| 0.10107|| 10,141|| || mezi || 0.08931|| 0.01073|| 0.10004|| 10,723|| || byla || 0.09280|| 0.00622|| 0.09902|| 6,282|| || své || 0.09326|| 0.00207|| 0.09533|| 2,167|| || '''roku''' || 0.08704|| 0.00080|| 0.08784|| 0,912|| || již || 0.07992|| 0.00567|| 0.08559|| 6,62|| || pak || 0.07019|| 0.01114|| 0.08134|| 13,699|| || první || 0.06355|| 0.01612|| 0.07967|| 20,228|| || '''roce''' || 0.07672|| 0.00001|| 0.07673|| 0,013|| || kteří || 0.07554|| 0.00007|| 0.07561|| 0,09|| || další || 0.06214|| 0.01225|| 0.07440|| 16,47|| || proti || 0.06897|| 0.00539|| 0.07436|| 7,248|| || let || 0.07376|| 0.00032|| 0.07408|| 0,435|| || tím || 0.06502|| 0.00740|| 0.07242|| 10,219|| || může || 0.06887|| 0.00318|| 0.07205|| 4,42|| || '''korun''' || 0.07184|| 0.00001|| 0.07185|| 0,018|| || řekl || 0.06587|| 0.00470|| 0.07057|| 6,654|| || tom || 0.06950|| 0.00106|| 0.07055|| 1,497|| || kde || 0.06735|| 0.00317|| 0.07053|| 4,501|| || či || 0.06787|| 0.00030|| 0.06817|| 0,447|| || tedy || 0.05841|| 0.00243|| 0.06084|| 3,988|| || pouze || 0.05529|| 0.00280|| 0.05809|| 4,823||