Changes between Version 12 and Version 13 of cs/JazykovyKorpus


Ignore:
Timestamp:
Apr 28, 2014, 1:20:28 PM (10 years ago)
Author:
xkocinc
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • cs/JazykovyKorpus

    v12 v13  
    55Když  texty posbíráme (např. stažením z webu), musíme korpus vyčistit:  odstranit vše, co není text (např. navigaci na stránkách nebo tiráž),  odstranit duplicity (např. tiskové zprávy, které přetiskují všechny  noviny). Vyčištěný korpus se rozdělí na ''tokeny'' (česky pozice),  tj. slova, interpunkci a neslova (čísla, značky). Často se korpus  značkuje: např. ke každému slovu přiřadíme slovní druh (podstatné jméno,  přídavné jméno atd.).
    66
    7 S  dortovým korpusem má jazykový korpus jednu společnou vlastnost: je  výchozím bodem pro další činnosti počítačových lingvistů. Na jazykový  korpus natřeme krém z [[VetnyRozbor| větného rozboru]]  a ozdobíme šlehačkou statistických metod. Nakonec můžeme nastrouhat  hoblinky hybridních systémů pro rozpoznání významu a je to! Dobrou chuť.
     7S  dortovým korpusem má jazykový korpus jednu společnou vlastnost: je  výchozím bodem pro další činnosti počítačových lingvistů. Na jazykový  korpus natřeme krém z [[cs/VetnyRozbor| větného rozboru]]  a ozdobíme šlehačkou statistických metod. Nakonec můžeme nastrouhat  hoblinky hybridních systémů pro rozpoznání významu a je to! Dobrou chuť.
    88
    99== 2. Co by našel v korpusu Luděk Nekuda? ==