Jak zpracovat text
Na této stránce by měly být k nalezení návody, jak získat značkovaná data ze vstupního textu. Typicky vstupní text projde několika programy přes rouru (pipe), takže lze snadno získat různé značky. Taková pipeline může obsahovat následující části zpracování:
- normalizace (převedení na jednotné kódování, sjednocení znaků pro apostrof apod.)
- segmentace (rozdělení textu na věty)
- tokenizace (rozdělení vět na slova)
- morfologická analýza (přidělení základního tvaru a možných gramatických značek)
- desambiguace (zjednoznačnění morfologických značek, výběr nejlepší varianty z předchozího kroku na základě konkrétního kontextu)
- značkování pojmenovaných entit
- značkování víceslovných výrazů
- značkování anafor a antecedentů
- syntaktická analýza
Čeština
Pro češtinu existuje tzv. Brno pipeline.
Angličtina
Tokenizace
Tokenizace pomocí unitok
:
>echo "You'll see the right things." | /corpora/programy/unitok.py -l czech You <g/> ' <g/> ll see the right things <g/> .
Tagging
Tagging pomocí TreeTaggeru:
>echo "You'll see the right things." | /corpora/programy/unitok.py -l english | /corpora/programy/tree_tagger.sh english You PP you-d <g/> 'll MD will-x see VV see-v the DT the-x right JJ right-j things NNS thing-n <g/> . SENT .-x
Last modified 7 years ago
Last modified on May 9, 2017, 3:44:35 PM