19 | | Máme-li korpus konkrétního jazyka, je možné vypočítat relevanci jednotlivých tokenů. Nejznámější metodou je výpočet TF-IDF, která počítá frekvencí tokenu (tj. počtem výskytů daného tokenu v daném dokumentu) a inverzní dokumentovou frekvencí (tj. podílem celkového počtu dokumentů v korpusu a počtu dokumentů, ve kterých se daný token vyskytuje). O tokenech, které se vyskytují v daném dokumentu často, ale v ostatních dokumentech se nevyskytují, lze říci, že jsou důležité v onom dokumentu. Mohou to být ''klíčová slova''. O tokenech, které se vyskytují v téměř každém dokumentu lze říci, že důležité nejsou (a typicky bývají na tzv. [[cs/Stoplist|seznamech stop slov]] (''stoplist''). O tokenech, které se vyskytují středně často v různých dokumentech nevypovídá TF-IDF nic. |
| 19 | Máme-li korpus konkrétního jazyka, je možné vypočítat relevanci jednotlivých tokenů. Nejznámější metodou je výpočet TF-IDF, která počítá frekvencí tokenu (tj. počtem výskytů daného tokenu v daném dokumentu) a inverzní dokumentovou frekvencí (tj. podílem celkového počtu dokumentů v korpusu a počtu dokumentů, ve kterých se daný token vyskytuje). O tokenech, které se vyskytují v daném dokumentu často, ale v ostatních dokumentech se nevyskytují, lze říci, že jsou důležité v onom dokumentu. Mohou to být ''klíčová slova''. O tokenech, které se vyskytují v téměř každém dokumentu lze říci, že důležité nejsou (a typicky bývají na tzv. [[cs/StopList|seznamech stop slov]] (''stoplist''). O tokenech, které se vyskytují středně často v různých dokumentech nevypovídá TF-IDF nic. |