Changes between Version 12 and Version 13 of cs/JazykovyKorpus
- Timestamp:
- Apr 28, 2014, 1:20:28 PM (9 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
cs/JazykovyKorpus
v12 v13 5 5 Když texty posbíráme (např. stažením z webu), musíme korpus vyčistit: odstranit vše, co není text (např. navigaci na stránkách nebo tiráž), odstranit duplicity (např. tiskové zprávy, které přetiskují všechny noviny). Vyčištěný korpus se rozdělí na ''tokeny'' (česky pozice), tj. slova, interpunkci a neslova (čísla, značky). Často se korpus značkuje: např. ke každému slovu přiřadíme slovní druh (podstatné jméno, přídavné jméno atd.). 6 6 7 S dortovým korpusem má jazykový korpus jednu společnou vlastnost: je výchozím bodem pro další činnosti počítačových lingvistů. Na jazykový korpus natřeme krém z [[ VetnyRozbor| větného rozboru]] a ozdobíme šlehačkou statistických metod. Nakonec můžeme nastrouhat hoblinky hybridních systémů pro rozpoznání významu a je to! Dobrou chuť.7 S dortovým korpusem má jazykový korpus jednu společnou vlastnost: je výchozím bodem pro další činnosti počítačových lingvistů. Na jazykový korpus natřeme krém z [[cs/VetnyRozbor| větného rozboru]] a ozdobíme šlehačkou statistických metod. Nakonec můžeme nastrouhat hoblinky hybridních systémů pro rozpoznání významu a je to! Dobrou chuť. 8 8 9 9 == 2. Co by našel v korpusu Luděk Nekuda? ==