wiki:TermDB

Version 1 (modified by xkovar3, 9 years ago) (diff)

--

Hledání termínů -- anotace korpusu pro vyhodnocení automatické extrakce termínů

Zadání

Vaším úkolem je vybrat termíny z oblasti počítačové lingvistiky z korpusu. Každý dostane svou část korpusu -- textový soubor se 3500 větami. Výstupem je textový soubor v kódování UTF-8 obsahující termíny vybrané z vaší části korpusu, jeden termín na řádku.

Vyberte právě termíny splňující všechny následující podmínky:

 • jméno, přívlastek, nebo jmenná fráze,
 • vyskytuje se ve vašem úseku korpusu,
 • vhodné jako heslo v terminologickém slovníku počítačové lingvistiky rozsahu cca. 1000 slov (=> má smysl a je možné heslo krátce vysvětlit),
 • v základním tvaru (syntaktických analýzách -> syntaktická analýza),
 • není vlastní jméno (Noam Chomsky),
 • názvy institucí, produktů, zkratky jsou povoleny (Ústav pro jazyk český, Český národní korpus, SSJČ),

Nezáleží na pořadí výskytu ani četnosti termínu v korpuse. Tedy ve výsledku bude každý nalezený termín právě jedenkrát a nezáleží na pořadí termínů.

V případě otázek se neváhejte obrátit na Vojtěcha Kováře <xkovar3@fi.muni.cz>.

Ukázky problémových případů z domény ochrany přírody

Nevhodné případy

 • obecné jmenné fráze: polovina dubna, Česká republika, koncept lesnictví
 • termín ano ale v jiné oblasti: uhlovodík, matečná hornina, predátor, výhřevnost, redukční rovnice, vnitrodruhový polymorfismus
 • pouze částečné termíny: vypouštění, ovzduší
 • cizojazyčné termíny: ecology
 • nejasné, asi příliš obecné: strom, lidská činnost, technické zařízení, živý organismus, třídění, zemědělská produkce, erozní ohroženost
 • spojení termínů (lépe jako samostatné termíny): lesní ekosystém, emise výfukových plynů, vypouštění odpadních vod, směsný domovní odpad
 • specifikátor navíc: plán odpadového hospodářství, stopová znečišťující látka, politika ochrany životního prostředí (když máme zadefinovaný termín ochrana ŽP, pro účely našeho slovníku není třeba definovat politiku ochrany ŽP)
 • názvy, osoby: vrápenec malý, netopýr velký
 • překlepy: biodpad
 • nesprávná/nestandardní formulace: kryt půdy (správně je půdní kryt), stanoviště stenoekního charakteru (stenoekní stanoviště)

Podheslo hesla

Podheslo hesla je povoleno, je-li to v cílové doméně běžné a vzhledem k velikosti slovníku žádané, např. heslo zněčištění může mít podhesla znečištění vody, půdy, ovzduší, jelikož tato znečištění mají svoje specifika, které je třeba rozlišovat, naopak podheslo znečištění životního prostředí je nadbytečné, jelikož primární heslo znečištění se již týká obecně životního prostředí.

Attachments (5)

Download all attachments as: .zip