Context Navigation

Changes between Version 73 and Version 74 of cs/MainTopics

Timestamp:: Feb 18, 2025, 10:14:54 AM (5 months ago)
Author:: Zuzana Nevěřilová
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

cs/MainTopics

-                      v73
+                      v74
 = Na čem pracujeme v Centru? =
+== Jazykové modelování == #model
+Jazykové modelování je převládajícím přístupem k zpracování přirozeného jazyka (natural language processing, [[cs/ZpracovaniPrirozenehoJazyka|NLP]]). Díky obrovskému množství textových dat jazykové modely přesně reprezentují přirozené jazyky a mohou:
+* klasifikovat tokeny nebo sekvence tokenů,
+* předpovídat nové tokeny na základě posloupnosti předchozích slov.
+Jazykové modely se používají při generování přirozeného jazyka (NLG), sumarizaci textu, analýze sentimentu, rozpoznávání pojmenovaných entit a mnoha dalších úlohách NLP.
+=== !BenCzechMark ===
+NLPC se podílí na projektu !BenCzechMark, jehož cílem je poskytnout univerzální velký benchmark jazykových modelů pro češtinu. Projekt je společným dílem Vysokého učení technického v Brně, Fakulty informatiky, Mendelovy univerzity a dalších institucí.
+Naším příspěvkem bylo zajištění benchmarkových úloh pro:
+* [https://nlp.fi.muni.cz/trac/propaganda Propaganda] anotaci textů.
+* [https://nlp.fi.muni.cz/projekty/sqad/ SQAD] - datová sada pro zodpovídání otázek
+* [https://www.umimeto.org/ Umime.to] testy
+* [https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-5548 natural language inference].
+Žebříček !BenCzechMark je k dispozici na adrese [https://huggingface.co/spaces/CZLC/BenCzechMark].
+=== Slama ===
+Je možné natrénovat jazykový model od nuly? Ano. Podívejte se na Slama - Velký slovanský jazykový model: [https://nlp.fi.muni.cz/raslan/2024/paper13.pdf článek z RASLAN 2024].
 == Korpusy == #Korpusy
 [[Image(/trac/research/raw-attachment/wiki/cs/MainTopics/corpora.png)]]
 Korpus je  kolekce textových dat v elektronické podobě. Jako významný zdroj  lingvistických dat slouží korpusy ke zkoumání mnoha frekvenčních jevů  jazyka a v současnosti jsou již neodmyslitelným nástrojem v oblasti [[cs/ZpracovaniPrirozenehoJazyka|NLP]].  Kromě korpusů obsahujících libovolné texty, se vytvářejí i jiné pro  zvláštní účely, např. paralelní (vícejazyčné), doménové, mluvené nebo chybové.
+Korpus je  kolekce textových dat v elektronické podobě. Jako významný zdroj  lingvistických dat slouží korpusy ke zkoumání mnoha frekvenčních jevů  jazyka a v současnosti jsou neodmyslitelným nástrojem NLP. Korpusy jsou základem jazykového modelování - současného přístupu k počítačovému zpracování textu. Kromě korpusů obsahujících libovolné texty, se vytvářejí i jiné pro  zvláštní účely, např. paralelní (vícejazyčné), doménové, mluvené nebo chybové.
 Čím větší je korpus, tím lépe může ilustrovat způsob, jakým lidé jazyk používají. Některé korpusy mohou obsahovat i více než 100 miliard slovních pozic. Korpusy jsou zpravidla přístupné prostřednictvím '''korpusových manažerů''', což jsou programy schopné tak velké množství dat ukládat, indexovat a rychle prohledávat. V CZPJ jsme vytvořili korpusový manažer '''The sketch engine'''.