Context Navigation

← Previous Change
Wiki History
Next Change →

Changes between Version 1 and Version 2 of cs/JazykoveNezavisle

Timestamp:: Apr 14, 2015, 5:59:26 PM (10 years ago)
Author:: Zuzana Nevěřilová
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

cs/JazykoveNezavisle

-                      v1
+                      v2
 == Hledání klíčových slov ==
 Máme-li korpus konkrétního jazyka, je možné vypočítat relevanci jednotlivých tokenů. Nejznámější metodou je výpočet TF-IDF, která počítá frekvencí tokenu (tj. počtem výskytů daného tokenu v daném dokumentu) a inverzní dokumentovou frekvencí (tj. podílem celkového počtu dokumentů v korpusu a počtu dokumentů, ve kterých se daný token vyskytuje). O tokenech, které se vyskytují v daném dokumentu často, ale v ostatních dokumentech se nevyskytují, lze říci, že jsou důležité v onom dokumentu. Mohou to být ''klíčová slova''. O tokenech, které se vyskytují v téměř každém dokumentu lze říci, že důležité nejsou (a typicky bývají na tzv. [[cs/Stoplist|seznamech stop slov]] (''stoplist''). O tokenech, které se vyskytují středně často v různých dokumentech nevypovídá TF-IDF nic.
+Máme-li korpus konkrétního jazyka, je možné vypočítat relevanci jednotlivých tokenů. Nejznámější metodou je výpočet TF-IDF, která počítá frekvencí tokenu (tj. počtem výskytů daného tokenu v daném dokumentu) a inverzní dokumentovou frekvencí (tj. podílem celkového počtu dokumentů v korpusu a počtu dokumentů, ve kterých se daný token vyskytuje). O tokenech, které se vyskytují v daném dokumentu často, ale v ostatních dokumentech se nevyskytují, lze říci, že jsou důležité v onom dokumentu. Mohou to být ''klíčová slova''. O tokenech, které se vyskytují v téměř každém dokumentu lze říci, že důležité nejsou (a typicky bývají na tzv. [[cs/StopList|seznamech stop slov]] (''stoplist''). O tokenech, které se vyskytují středně často v různých dokumentech nevypovídá TF-IDF nic.
 Odkaz na program pro výpočet TF-IDF.
 …
 [[Image(https://www.sketchengine.co.uk/documentation/raw-attachment/wiki/SkE/TerminologyExtraction/extraction_terminology.png)]]
 Klíčová slova lze také extrahovat v korpusovém manažeru SketchEngine, přečtěte si [[https://www.sketchengine.co.uk/documentation/wiki/SkE/TerminologyExtraction|návod]].
+Klíčová slova lze také extrahovat v korpusovém manažeru [[cs/SketchEngine|SketchEngine]], přečtěte si [[https://www.sketchengine.co.uk/documentation/wiki/SkE/TerminologyExtraction|návod]].