Čeština
English
  • Vítejte na stránkách NLP Centra!
  • Zapojte se do vývoje softwarových nástrojů!
  • Analýza přirozeného jazyka
  • Vyzkoušejte si korpusy o velikosti knihoven online!
  • Studujte jednu ze specializací!
  • Členové laboratoře

Jazykově nezávislé metody zpracování textu

Byli-li bychom hodně striktní, mohli bychom za jazykově nezávislé prohlásit jen zpracování jednotlivých bajtů. Zpracování na úrovni znaků vyžaduje znalost kódování (která může souviset s konkrétním jazykem), zpracování na úrovni slov vyžaduje znalost o tom, co je slovo.

Běžně se však mezi jazykově nezávislé metody řadí metody, které zpracovávají text na úrovni tokenů. Token je slovo (které bychom mohli najít ve slovníku nebo v korektoru překlepů) či neslovo (číslo, zkratka, interpunkce). Text lze rozdělit na tokeny pomocí tokenizace, což je částečně jazykově nezávislý proces. Jazyky psané latinkou nebo jinými hláskovými písmy používají pro oddělení slov mezeru. Některé tokeny nejsou vzájemně oddělené mezerou (např. slovo a interpunkce). Sporných případů existuje poměrně málo, např. je otázka, zda anglické I'm je jedno slovo nebo slova dvě.

Tokenizace

Programy, které se zabývají tokenizací textu, ze nazývají tokenizery. V CZPJ vyvíjíme tokenizer unitok.

Segmentace na věty

Rozdělit text na věty je úkol snadný jen zdánlivě. Některé části textu (např. nadpisy) nekončí žádným interpunkčním znaménkem, interpunkční znaménka, která končí větu, mají více významů (např. tečka se píše za zkratkou nebo řadovou číslovkou).

Odkaz na program pro segmentaci vět.

Hledání klíčových slov

Máme-li korpus konkrétního jazyka, je možné vypočítat relevanci jednotlivých tokenů. Nejznámější metodou je výpočet TF-IDF, která počítá frekvencí tokenu (tj. počtem výskytů daného tokenu v daném dokumentu) a inverzní dokumentovou frekvencí (tj. podílem celkového počtu dokumentů v korpusu a počtu dokumentů, ve kterých se daný token vyskytuje). O tokenech, které se vyskytují v daném dokumentu často, ale v ostatních dokumentech se nevyskytují, lze říci, že jsou důležité v onom dokumentu. Mohou to být klíčová slova. O tokenech, které se vyskytují v téměř každém dokumentu lze říci, že důležité nejsou (a typicky bývají na tzv. seznamech stop slov (stoplist). O tokenech, které se vyskytují středně často v různých dokumentech nevypovídá TF-IDF nic.

Odkaz na program pro výpočet TF-IDF.

https://www.sketchengine.co.uk/documentation/raw-attachment/wiki/SkE/TerminologyExtraction/extraction_terminology.png

Klíčová slova lze také extrahovat v korpusovém manažeru SketchEngine, přečtěte si návod.