Changes between Version 1 and Version 2 of cs/JazykoveNezavisle


Ignore:
Timestamp:
Apr 14, 2015, 5:59:26 PM (8 years ago)
Author:
Zuzana Nevěřilová
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
 • cs/JazykoveNezavisle

  v1 v2  
  1717== Hledání klíčových slov ==
  1818
  19 Máme-li korpus konkrétního jazyka, je možné vypočítat relevanci jednotlivých tokenů. Nejznámější metodou je výpočet TF-IDF, která počítá frekvencí tokenu (tj. počtem výskytů daného tokenu v daném dokumentu) a inverzní dokumentovou frekvencí (tj. podílem celkového počtu dokumentů v korpusu a počtu dokumentů, ve kterých se daný token vyskytuje). O tokenech, které se vyskytují v daném dokumentu často, ale v ostatních dokumentech se nevyskytují, lze říci, že jsou důležité v onom dokumentu. Mohou to být ''klíčová slova''. O tokenech, které se vyskytují v téměř každém dokumentu lze říci, že důležité nejsou (a typicky bývají na tzv. [[cs/Stoplist|seznamech stop slov]] (''stoplist''). O tokenech, které se vyskytují středně často v různých dokumentech nevypovídá TF-IDF nic.
   19Máme-li korpus konkrétního jazyka, je možné vypočítat relevanci jednotlivých tokenů. Nejznámější metodou je výpočet TF-IDF, která počítá frekvencí tokenu (tj. počtem výskytů daného tokenu v daném dokumentu) a inverzní dokumentovou frekvencí (tj. podílem celkového počtu dokumentů v korpusu a počtu dokumentů, ve kterých se daný token vyskytuje). O tokenech, které se vyskytují v daném dokumentu často, ale v ostatních dokumentech se nevyskytují, lze říci, že jsou důležité v onom dokumentu. Mohou to být ''klíčová slova''. O tokenech, které se vyskytují v téměř každém dokumentu lze říci, že důležité nejsou (a typicky bývají na tzv. [[cs/StopList|seznamech stop slov]] (''stoplist''). O tokenech, které se vyskytují středně často v různých dokumentech nevypovídá TF-IDF nic.
  2020
  2121Odkaz na program pro výpočet TF-IDF.
   
  2323[[Image(https://www.sketchengine.co.uk/documentation/raw-attachment/wiki/SkE/TerminologyExtraction/extraction_terminology.png)]]
  2424
  25 Klíčová slova lze také extrahovat v korpusovém manažeru SketchEngine, přečtěte si [[https://www.sketchengine.co.uk/documentation/wiki/SkE/TerminologyExtraction|návod]].
   25Klíčová slova lze také extrahovat v korpusovém manažeru [[cs/SketchEngine|SketchEngine]], přečtěte si [[https://www.sketchengine.co.uk/documentation/wiki/SkE/TerminologyExtraction|návod]].
  2626
  2727