= Jak zpracovat text = Na této stránce by měly být k nalezení návody, jak získat značkovaná data ze vstupního textu. Typicky vstupní text projde několika programy přes rouru (pipe), takže lze snadno získat různé značky. Taková ''pipeline'' může obsahovat následující části zpracování: * normalizace (převedení na jednotné kódování, sjednocení znaků pro apostrof apod.) * segmentace (rozdělení textu na věty) * tokenizace (rozdělení vět na slova) * morfologická analýza (přidělení základního tvaru a možných gramatických značek) * desambiguace (zjednoznačnění morfologických značek, výběr nejlepší varianty z předchozího kroku na základě konkrétního kontextu) * značkování pojmenovaných entit * značkování víceslovných výrazů * značkování anafor a antecedentů * syntaktická analýza == Čeština == Pro češtinu existuje tzv. [wiki:cs/Cestina Brno pipeline]. == Angličtina == === Tokenizace === Tokenizace pomocí {{{unitok}}}: {{{ >echo "You'll see the right things." | /corpora/programy/unitok.py -l czech You ' ll see the right things . }}} === Tagging === Tagging pomocí !TreeTaggeru: {{{ >echo "You'll see the right things." | /corpora/programy/unitok.py -l english | /corpora/programy/tree_tagger.sh english You PP you-d 'll MD will-x see VV see-v the DT the-x right JJ right-j things NNS thing-n . SENT .-x }}}