Changes between Version 1 and Version 2 of cs/JazykoveNezavisle


Ignore:
Timestamp:
Apr 14, 2015, 5:59:26 PM (6 years ago)
Author:
Zuzana Nevěřilová
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • cs/JazykoveNezavisle

    v1 v2  
    1717== Hledání klíčových slov ==
    1818
    19 Máme-li korpus konkrétního jazyka, je možné vypočítat relevanci jednotlivých tokenů. Nejznámější metodou je výpočet TF-IDF, která počítá frekvencí tokenu (tj. počtem výskytů daného tokenu v daném dokumentu) a inverzní dokumentovou frekvencí (tj. podílem celkového počtu dokumentů v korpusu a počtu dokumentů, ve kterých se daný token vyskytuje). O tokenech, které se vyskytují v daném dokumentu často, ale v ostatních dokumentech se nevyskytují, lze říci, že jsou důležité v onom dokumentu. Mohou to být ''klíčová slova''. O tokenech, které se vyskytují v téměř každém dokumentu lze říci, že důležité nejsou (a typicky bývají na tzv. [[cs/Stoplist|seznamech stop slov]] (''stoplist''). O tokenech, které se vyskytují středně často v různých dokumentech nevypovídá TF-IDF nic.
     19Máme-li korpus konkrétního jazyka, je možné vypočítat relevanci jednotlivých tokenů. Nejznámější metodou je výpočet TF-IDF, která počítá frekvencí tokenu (tj. počtem výskytů daného tokenu v daném dokumentu) a inverzní dokumentovou frekvencí (tj. podílem celkového počtu dokumentů v korpusu a počtu dokumentů, ve kterých se daný token vyskytuje). O tokenech, které se vyskytují v daném dokumentu často, ale v ostatních dokumentech se nevyskytují, lze říci, že jsou důležité v onom dokumentu. Mohou to být ''klíčová slova''. O tokenech, které se vyskytují v téměř každém dokumentu lze říci, že důležité nejsou (a typicky bývají na tzv. [[cs/StopList|seznamech stop slov]] (''stoplist''). O tokenech, které se vyskytují středně často v různých dokumentech nevypovídá TF-IDF nic.
    2020
    2121Odkaz na program pro výpočet TF-IDF.
     
    2323[[Image(https://www.sketchengine.co.uk/documentation/raw-attachment/wiki/SkE/TerminologyExtraction/extraction_terminology.png)]]
    2424
    25 Klíčová slova lze také extrahovat v korpusovém manažeru SketchEngine, přečtěte si [[https://www.sketchengine.co.uk/documentation/wiki/SkE/TerminologyExtraction|návod]].
     25Klíčová slova lze také extrahovat v korpusovém manažeru [[cs/SketchEngine|SketchEngine]], přečtěte si [[https://www.sketchengine.co.uk/documentation/wiki/SkE/TerminologyExtraction|návod]].
    2626
    2727