Pokyny k lingvistickému úkolu do IB030
- úkolem je vytvoření nové české datové sady s dialogy
pro trénování základních jazykových modelů s úlohou
Instruction Fine-tuning
- úkol řešte pomocí
on-line aplikace.
Do aplikace se přihlašte pomocí fakultního loginu i hesla.
Aplikace je průběžně upravovaná, případné problémy s jejím
během pište na hales@fi.muni.cz.
- úkolem je připravit alespoň 200 konverzací o průměrné
délce 60 slov v alespoň 10 tématech.
U každé konverzace je potřeba:
- vybrat kategorii/téma
pro doplnění
- vytvořit konverzaci dvou entit: člověka
a (robotického) asistenta na zvolené téma/kategorii.
Konverzace musí mít délku mezi 20 a 300 slovy.
- po zadání konverzace se spustí aplikace na detekci
sentimentu (pozitivní, neutrální, ...) a nalezení
pojmenovaných entit (osob, míst, organizací, čísel, ...).
Výsledek těchto aplikací je potřeba zkontrolovat a případně
upravit/doplnit. Vyznačujte následující entity:
- PER - person, jméno osoby
- ORG - organization, jméno organizace
- LOC - location, jméno místa/lokace
- NAM - name, název artefaktu (filmu, divadelní hry, knihy, ...)
- NUM - number, číslo/číslovka určitá
- TIM - time, časový údaj/úsek, datum
Entity reprezentují základní variovatelné prvky dialogu.
- při tvorbě odpovědi asistenta můžete vycházet
z návrhů systémů jako je ChatGPT, Gemini apod. Vždy ale musíte
jejich návrh pečlivě pročíst a případně upravit tak, aby:
- nebyl specifický pro žádný systém, např.
neobsahoval "jsem jazykový model" nebo "má
poslední aktualizace znalostí byla v roce 2023"
- byl vždy trpělivý, přátelský a empatický. Negativní
sentiment se vztahuje jen na dotaz uživatele, asistent musí
reagovat vždy pozitivně.
- neodpovídal na nejasný dotaz. V takovém případě by
měl asistent položit doplňující otázku.
- neobsahoval zjevnou nepravdu. Pokud obsahuje
neověřené informace, měl by to zmínit.
- text může obsahovat základní značení Markdown
(tučné písmo, odrážky, ...).
- neobsahoval programové kódy, tabulky a jiné výrazně
formátované informace, jde nám hlavně o jazyk.
- jedna odpověď nebyla delší než 1-2 odstavce.
- celý dialog nekončil otázkou.
- při tvorbě uživatelského dotazu:
- vycházejte z reálných situací a potřeb
- formulujte dotaz jako na odborníka nebo lidského
asistenta
- pokládejte i netriviální dotazy, které nemusí mít
vždy jasnou odpověď
- konverzujte s asistentem v několika krocích dialogu
(2-4)
- kromě uvedených parametrů se hodnotí i bohatost slovní zásoby,
příslušnost k tématu a různorodost konverzací (v délce, tématu,
formátu, sentimentu, ...).
- všechny další dotazy, ke kterým nenajdete odpověď, směřujte
e-mailem na adresu skupiny ib030nlp:
ib030nlp@nlp.fi.muni.cz
- termíny odevzdání/dokončení úkolu jsou uvedeny na stránce předmětu.
- Pokud by byly s řešením nějaké zásadnější problémy, tak se obraťte
samozřejmě na přednášejícího.
Zpět na stránku předmětu.