Context Navigation

← Previous Change
Wiki History
Next Change →

Changes between Initial Version and Version 1 of cs/JakZpracovatText

Timestamp:: May 9, 2017, 3:37:20 PM (8 years ago)
Author:: Zuzana Nevěřilová
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

cs/JakZpracovatText

                       v1
+= Jak zpracovat text =
+Na této stránce by měly být k nalezení návody, jak získat značkovaná data ze vstupního textu. Typicky vstupní text projde několika programy přes rouru (pipe), takže lze snadno získat různé značky. Taková ''pipeline'' může obsahovat následující části zpracování:
+* normalizace (převedení na jednotné kódování, sjednocení znaků pro apostrof apod.)
+* segmentace (rozdělení textu na věty)
+* tokenizace (rozdělení vět na slova)
+* morfologická analýza (přidělení základního tvaru a možných gramatických značek)
+* desambiguace (zjednoznačnění morfologických značek, výběr nejlepší varianty z předchozího kroku na základě konkrétního kontextu)
+* značkování pojmenovaných entit
+* značkování víceslovných výrazů
+* značkování anafor a antecedentů
+* syntaktická analýza
+== Čeština ==
+Pro češtinu existuje tzv. Brno pipeline.
+== Angličtina ==
+=== Tokenizace ===
+Tokenizace pomocí {{{unitok}}}:
+{{{
+>echo "You'll see the right things." | /corpora/programy/unitok.py -l czech
+You
+<g/>
+'
+<g/>
+ll
+see
+the
+right
+things
+<g/>
+.
+}}}
+=== Tagging ===
+Tagging pomocí !TreeTaggeru:
+{{{
+>echo "You'll see the right things." | /corpora/programy/unitok.py -l english | /corpora/programy/tree_tagger.sh english
+You     PP      you-d
+<g/>
+'ll     MD      will-x
+see     VV      see-v
+the     DT      the-x
+right   JJ      right-j
+things  NNS     thing-n
+<g/>
+.       SENT    .-x
+}}}