= Jak zpracovat text =

Na této stránce by měly být k nalezení návody, jak získat značkovaná data ze vstupního textu. Typicky vstupní text projde několika programy přes rouru (pipe), takže lze snadno získat různé značky. Taková ''pipeline'' může obsahovat následující části zpracování:
* normalizace (převedení na jednotné kódování, sjednocení znaků pro apostrof apod.)
* segmentace (rozdělení textu na věty)
* tokenizace (rozdělení vět na slova)
* morfologická analýza (přidělení základního tvaru a možných gramatických značek)
* desambiguace (zjednoznačnění morfologických značek, výběr nejlepší varianty z předchozího kroku na základě konkrétního kontextu)
* značkování pojmenovaných entit
* značkování víceslovných výrazů
* značkování anafor a antecedentů
* syntaktická analýza

== Čeština ==

Pro češtinu existuje tzv. [wiki:cs/Cestina Brno pipeline].

== Angličtina ==

=== Tokenizace ===
Tokenizace pomocí {{{unitok}}}:
{{{
>echo "You'll see the right things." | /corpora/programy/unitok.py -l czech
You
<g/>
'
<g/>
ll
see
the
right
things
<g/>
.
}}}

=== Tagging ===
Tagging pomocí !TreeTaggeru:

{{{
>echo "You'll see the right things." | /corpora/programy/unitok.py -l english | /corpora/programy/tree_tagger.sh english

You	PP	you-d
<g/>
'll	MD	will-x
see	VV	see-v
the	DT	the-x
right	JJ	right-j
things	NNS	thing-n
<g/>
.	SENT	.-x
}}}