wiki:cs/JakZpracovatText

Version 1 (modified by Zuzana Nevěřilová, 7 years ago) (diff)

--

Jak zpracovat text

Na této stránce by měly být k nalezení návody, jak získat značkovaná data ze vstupního textu. Typicky vstupní text projde několika programy přes rouru (pipe), takže lze snadno získat různé značky. Taková pipeline může obsahovat následující části zpracování:

  • normalizace (převedení na jednotné kódování, sjednocení znaků pro apostrof apod.)
  • segmentace (rozdělení textu na věty)
  • tokenizace (rozdělení vět na slova)
  • morfologická analýza (přidělení základního tvaru a možných gramatických značek)
  • desambiguace (zjednoznačnění morfologických značek, výběr nejlepší varianty z předchozího kroku na základě konkrétního kontextu)
  • značkování pojmenovaných entit
  • značkování víceslovných výrazů
  • značkování anafor a antecedentů
  • syntaktická analýza

Čeština

Pro češtinu existuje tzv. Brno pipeline.

Angličtina

Tokenizace

Tokenizace pomocí unitok:

>echo "You'll see the right things." | /corpora/programy/unitok.py -l czech
You
<g/>
'
<g/>
ll
see
the
right
things
<g/>
.

Tagging

Tagging pomocí TreeTaggeru:

>echo "You'll see the right things." | /corpora/programy/unitok.py -l english | /corpora/programy/tree_tagger.sh english

You	PP	you-d
<g/>
'll	MD	will-x
see	VV	see-v
the	DT	the-x
right	JJ	right-j
things	NNS	thing-n
<g/>
.	SENT	.-x