= Hledání termínů -- anotace korpusu pro vyhodnocení automatické extrakce termínů = == Zadání == Vaším úkolem je vybrat termíny z oblasti počítačové lingvistiky z korpusu. Každý dostane svou část korpusu -- textový soubor se 3500 větami. Výstupem je textový soubor v kódování UTF-8 obsahující termíny vybrané z vaší části korpusu, jeden termín na řádku. Vyberte právě termíny splňující všechny následující podmínky: - jméno, přívlastek, nebo jmenná fráze, - vyskytuje se ve vašem úseku korpusu, - vhodné jako heslo v terminologickém slovníku počítačové lingvistiky (=> má smysl a je možné heslo krátce vysvětlit), - není vlastní jméno (Noam Chomsky), není název instituce (Ústav pro jazyk český), - zkratky jsou povoleny (bezkontextová gramatika -> CFG), - termíny převeďte na základní tvar (syntaktických analýzách -> syntaktická analýza). Nezáleží na pořadí výskytu ani četnosti termínu v korpuse. Tedy ve výsledku bude každý nalezený termín právě jedenkrát a nezáleží na pořadí termínů. Samozřejmě narazíte na spoustu sporných případů, problém není příliš ostře definován. V takových přpadech se řiďte svou intuicí a odbornými znalostmi -- představte si, že jste v pozici editora terminologického slovníku lingvistiky (s potenciálně neomezeným rozsahem) a musíte rozhodnout, která hesla tam zařadíte a která ne. V případě otázek se neváhejte obrátit na Vojtěcha Kováře . Na jeho e-mailovou adresu rovněž posílejte vypracovaná řešení. == Ukázky problémových případů z domény ochrany přírody == === Nevhodné případy === - obecné jmenné fráze: polovina dubna, Česká republika, koncept lesnictví - termín ano ale v jiné oblasti: uhlovodík, matečná hornina, predátor, výhřevnost, redukční rovnice, vnitrodruhový polymorfismus - pouze částečné termíny: vypouštění, ovzduší - cizojazyčné termíny: ecology - názvy, osoby: vrápenec malý, netopýr velký - překlepy: biodpad {{{#!comment === Sporné případy === V těchto případech záleží na vašem cítění, jak moc je fráze významná pro heslo ve slovníku termínů. - nejasné, asi příliš obecné: strom, lidská činnost, technické zařízení, živý organismus, třídění, zemědělská produkce, erozní ohroženost - spojení termínů (lépe jako samostatné termíny): lesní ekosystém, emise výfukových plynů, vypouštění odpadních vod, směsný domovní odpad - specifikátor navíc: plán odpadového hospodářství, stopová znečišťující látka, politika ochrany životního prostředí (když máme zadefinovaný termín ochrana ŽP, pro účely našeho slovníku není třeba definovat politiku ochrany ŽP) - nesprávná/nestandardní formulace: kryt půdy (správně je půdní kryt), stanoviště stenoekního charakteru (stenoekní stanoviště) }}} === Podheslo hesla === Podheslo hesla je povoleno, je-li to v cílové doméně běžné a vzhledem k velikosti slovníku žádané, např. heslo zněčištění může mít podhesla znečištění vody, půdy, ovzduší, jelikož tato znečištění mají svoje specifika, které je třeba rozlišovat, naopak podheslo znečištění životního prostředí je nadbytečné, jelikož primární heslo znečištění se již týká obecně životního prostředí. == Ukázky termínů z jiných domén == Termíny byly ručně vybrány ze šesti set vět. - ochrana přírody: [attachment:termeval_eco_cz.sents.terms2.txt termíny] [attachment:termeval_eco_cz_small.sents.txt zdroj] - hudební věda: [attachment:termeval_music_cz.sents.terms2.txt termíny] [attachment:termeval_music_cz_small.sents.txt zdroj]