Changes between Version 73 and Version 74 of cs/MainTopics
- Timestamp:
- Feb 18, 2025, 10:14:54 AM (5 months ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
cs/MainTopics
v73 v74 4 4 = Na čem pracujeme v Centru? = 5 5 6 == Jazykové modelování == #model 7 8 Jazykové modelování je převládajícím přístupem k zpracování přirozeného jazyka (natural language processing, [[cs/ZpracovaniPrirozenehoJazyka|NLP]]). Díky obrovskému množství textových dat jazykové modely přesně reprezentují přirozené jazyky a mohou: 9 * klasifikovat tokeny nebo sekvence tokenů, 10 * předpovídat nové tokeny na základě posloupnosti předchozích slov. 11 Jazykové modely se používají při generování přirozeného jazyka (NLG), sumarizaci textu, analýze sentimentu, rozpoznávání pojmenovaných entit a mnoha dalších úlohách NLP. 12 13 === !BenCzechMark === 14 15 NLPC se podílí na projektu !BenCzechMark, jehož cílem je poskytnout univerzální velký benchmark jazykových modelů pro češtinu. Projekt je společným dílem Vysokého učení technického v Brně, Fakulty informatiky, Mendelovy univerzity a dalších institucí. 16 17 Naším příspěvkem bylo zajištění benchmarkových úloh pro: 18 * [https://nlp.fi.muni.cz/trac/propaganda Propaganda] anotaci textů. 19 * [https://nlp.fi.muni.cz/projekty/sqad/ SQAD] - datová sada pro zodpovídání otázek 20 * [https://www.umimeto.org/ Umime.to] testy 21 * [https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-5548 natural language inference]. 22 23 Žebříček !BenCzechMark je k dispozici na adrese [https://huggingface.co/spaces/CZLC/BenCzechMark]. 24 25 === Slama === 26 27 Je možné natrénovat jazykový model od nuly? Ano. Podívejte se na Slama - Velký slovanský jazykový model: [https://nlp.fi.muni.cz/raslan/2024/paper13.pdf článek z RASLAN 2024]. 6 28 7 29 == Korpusy == #Korpusy 8 30 [[Image(/trac/research/raw-attachment/wiki/cs/MainTopics/corpora.png)]] 9 31 10 Korpus je kolekce textových dat v elektronické podobě. Jako významný zdroj lingvistických dat slouží korpusy ke zkoumání mnoha frekvenčních jevů jazyka a v současnosti jsou již neodmyslitelným nástrojem v oblasti [[cs/ZpracovaniPrirozenehoJazyka|NLP]].Kromě korpusů obsahujících libovolné texty, se vytvářejí i jiné pro zvláštní účely, např. paralelní (vícejazyčné), doménové, mluvené nebo chybové.32 Korpus je kolekce textových dat v elektronické podobě. Jako významný zdroj lingvistických dat slouží korpusy ke zkoumání mnoha frekvenčních jevů jazyka a v současnosti jsou neodmyslitelným nástrojem NLP. Korpusy jsou základem jazykového modelování - současného přístupu k počítačovému zpracování textu. Kromě korpusů obsahujících libovolné texty, se vytvářejí i jiné pro zvláštní účely, např. paralelní (vícejazyčné), doménové, mluvené nebo chybové. 11 33 12 34 Čím větší je korpus, tím lépe může ilustrovat způsob, jakým lidé jazyk používají. Některé korpusy mohou obsahovat i více než 100 miliard slovních pozic. Korpusy jsou zpravidla přístupné prostřednictvím '''korpusových manažerů''', což jsou programy schopné tak velké množství dat ukládat, indexovat a rychle prohledávat. V CZPJ jsme vytvořili korpusový manažer '''The sketch engine'''.