Changes between Initial Version and Version 1 of cs/JakZpracovatText


Ignore:
Timestamp:
May 9, 2017, 3:37:20 PM (7 years ago)
Author:
Zuzana Nevěřilová
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • cs/JakZpracovatText

    v1 v1  
     1= Jak zpracovat text =
     2
     3Na této stránce by měly být k nalezení návody, jak získat značkovaná data ze vstupního textu. Typicky vstupní text projde několika programy přes rouru (pipe), takže lze snadno získat různé značky. Taková ''pipeline'' může obsahovat následující části zpracování:
     4* normalizace (převedení na jednotné kódování, sjednocení znaků pro apostrof apod.)
     5* segmentace (rozdělení textu na věty)
     6* tokenizace (rozdělení vět na slova)
     7* morfologická analýza (přidělení základního tvaru a možných gramatických značek)
     8* desambiguace (zjednoznačnění morfologických značek, výběr nejlepší varianty z předchozího kroku na základě konkrétního kontextu)
     9* značkování pojmenovaných entit
     10* značkování víceslovných výrazů
     11* značkování anafor a antecedentů
     12* syntaktická analýza
     13
     14== Čeština ==
     15
     16Pro češtinu existuje tzv. Brno pipeline.
     17
     18== Angličtina ==
     19
     20=== Tokenizace ===
     21Tokenizace pomocí {{{unitok}}}:
     22{{{
     23>echo "You'll see the right things." | /corpora/programy/unitok.py -l czech
     24You
     25<g/>
     26'
     27<g/>
     28ll
     29see
     30the
     31right
     32things
     33<g/>
     34.
     35}}}
     36
     37=== Tagging ===
     38Tagging pomocí !TreeTaggeru:
     39
     40{{{
     41>echo "You'll see the right things." | /corpora/programy/unitok.py -l english | /corpora/programy/tree_tagger.sh english
     42
     43You     PP      you-d
     44<g/>
     45'll     MD      will-x
     46see     VV      see-v
     47the     DT      the-x
     48right   JJ      right-j
     49things  NNS     thing-n
     50<g/>
     51.       SENT    .-x
     52}}}
     53
     54
     55