Changes between Initial Version and Version 1 of TermDB


Ignore:
Timestamp:
Apr 14, 2014, 2:26:49 AM (7 years ago)
Author:
xkovar3
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • TermDB

    v1 v1  
     1= Hledání termínů -- anotace korpusu pro vyhodnocení automatické extrakce termínů =
     2
     3
     4== Zadání ==
     5Vaším úkolem je vybrat termíny z oblasti počítačové lingvistiky z korpusu. Každý dostane svou část korpusu -- textový soubor se 3500 větami. Výstupem je textový soubor v kódování UTF-8 obsahující termíny vybrané z vaší části korpusu, jeden termín na řádku.
     6
     7Vyberte právě termíny splňující všechny následující podmínky:
     8- jméno, přívlastek, nebo jmenná fráze,
     9- vyskytuje se ve vašem úseku korpusu,
     10- vhodné jako heslo v terminologickém slovníku počítačové lingvistiky rozsahu cca. 1000 slov (=> má smysl a je možné heslo krátce vysvětlit),
     11- v základním tvaru (syntaktických analýzách -> syntaktická analýza),
     12- není vlastní jméno (Noam Chomsky),
     13- názvy institucí, produktů, zkratky jsou povoleny (Ústav pro jazyk český, Český národní korpus, SSJČ),
     14
     15Nezáleží na pořadí výskytu ani četnosti termínu v korpuse. Tedy ve výsledku bude každý nalezený termín právě jedenkrát a nezáleží na pořadí termínů.
     16
     17V případě otázek se neváhejte obrátit na Vojtěcha Kováře <xkovar3@fi.muni.cz>.
     18
     19== Ukázky problémových případů z domény ochrany přírody ==
     20
     21=== Nevhodné případy ===
     22- obecné jmenné fráze: polovina dubna, Česká republika, koncept lesnictví
     23- termín ano ale v jiné oblasti: uhlovodík, matečná hornina, predátor, výhřevnost, redukční rovnice, vnitrodruhový polymorfismus
     24- pouze částečné termíny: vypouštění, ovzduší
     25- cizojazyčné termíny: ecology
     26- nejasné, asi příliš obecné: strom, lidská činnost, technické zařízení, živý organismus, třídění, zemědělská produkce, erozní ohroženost
     27- spojení termínů (lépe jako samostatné termíny): lesní ekosystém, emise výfukových plynů, vypouštění odpadních vod, směsný domovní odpad
     28- specifikátor navíc: plán odpadového hospodářství, stopová znečišťující látka, politika ochrany životního prostředí (když máme zadefinovaný termín ochrana ŽP, pro účely našeho slovníku není třeba definovat politiku ochrany ŽP)
     29- názvy, osoby: vrápenec malý, netopýr velký
     30- překlepy: biodpad
     31- nesprávná/nestandardní formulace: kryt půdy (správně je půdní kryt), stanoviště stenoekního charakteru (stenoekní stanoviště)
     32
     33=== Podheslo hesla ===
     34Podheslo hesla je povoleno, je-li to v cílové doméně běžné a vzhledem k velikosti slovníku žádané, např. heslo zněčištění může mít podhesla znečištění vody, půdy, ovzduší, jelikož tato znečištění mají svoje specifika, které je třeba rozlišovat, naopak podheslo znečištění životního prostředí je nadbytečné, jelikož primární heslo znečištění se již týká obecně životního prostředí.