Changes between Version 73 and Version 74 of cs/MainTopics


Ignore:
Timestamp:
Feb 18, 2025, 10:14:54 AM (5 months ago)
Author:
Zuzana Nevěřilová
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • cs/MainTopics

    v73 v74  
    44= Na čem pracujeme v Centru? =
    55
     6== Jazykové modelování == #model
     7
     8Jazykové modelování je převládajícím přístupem k zpracování přirozeného jazyka (natural language processing, [[cs/ZpracovaniPrirozenehoJazyka|NLP]]). Díky obrovskému množství textových dat jazykové modely přesně reprezentují přirozené jazyky a mohou:
     9* klasifikovat tokeny nebo sekvence tokenů,
     10* předpovídat nové tokeny na základě posloupnosti předchozích slov.
     11Jazykové modely se používají při generování přirozeného jazyka (NLG), sumarizaci textu, analýze sentimentu, rozpoznávání pojmenovaných entit a mnoha dalších úlohách NLP.
     12
     13=== !BenCzechMark ===
     14
     15NLPC se podílí na projektu !BenCzechMark, jehož cílem je poskytnout univerzální velký benchmark jazykových modelů pro češtinu. Projekt je společným dílem Vysokého učení technického v Brně, Fakulty informatiky, Mendelovy univerzity a dalších institucí.
     16
     17Naším příspěvkem bylo zajištění benchmarkových úloh pro:
     18* [https://nlp.fi.muni.cz/trac/propaganda Propaganda] anotaci textů.
     19* [https://nlp.fi.muni.cz/projekty/sqad/ SQAD] - datová sada pro zodpovídání otázek
     20* [https://www.umimeto.org/ Umime.to] testy
     21* [https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-5548 natural language inference].
     22
     23Žebříček !BenCzechMark je k dispozici na adrese [https://huggingface.co/spaces/CZLC/BenCzechMark].
     24
     25=== Slama ===
     26
     27Je možné natrénovat jazykový model od nuly? Ano. Podívejte se na Slama - Velký slovanský jazykový model: [https://nlp.fi.muni.cz/raslan/2024/paper13.pdf článek z RASLAN 2024].
    628
    729== Korpusy == #Korpusy
    830[[Image(/trac/research/raw-attachment/wiki/cs/MainTopics/corpora.png)]]
    931
    10 Korpus je  kolekce textových dat v elektronické podobě. Jako významný zdroj  lingvistických dat slouží korpusy ke zkoumání mnoha frekvenčních jevů  jazyka a v současnosti jsou již neodmyslitelným nástrojem v oblasti [[cs/ZpracovaniPrirozenehoJazyka|NLP]]. Kromě korpusů obsahujících libovolné texty, se vytvářejí i jiné pro  zvláštní účely, např. paralelní (vícejazyčné), doménové, mluvené nebo chybové.
     32Korpus je  kolekce textových dat v elektronické podobě. Jako významný zdroj  lingvistických dat slouží korpusy ke zkoumání mnoha frekvenčních jevů  jazyka a v současnosti jsou neodmyslitelným nástrojem NLP. Korpusy jsou základem jazykového modelování - současného přístupu k počítačovému zpracování textu. Kromě korpusů obsahujících libovolné texty, se vytvářejí i jiné pro  zvláštní účely, např. paralelní (vícejazyčné), doménové, mluvené nebo chybové.
    1133
    1234Čím větší je korpus, tím lépe může ilustrovat způsob, jakým lidé jazyk používají. Některé korpusy mohou obsahovat i více než 100 miliard slovních pozic. Korpusy jsou zpravidla přístupné prostřednictvím '''korpusových manažerů''', což jsou programy schopné tak velké množství dat ukládat, indexovat a rychle prohledávat. V CZPJ jsme vytvořili korpusový manažer '''The sketch engine'''.