Changes between Version 1 and Version 2 of TermDB
- Timestamp:
- Apr 14, 2014, 10:28:56 AM (10 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
TermDB
v1 v2 1 1 = Hledání termínů -- anotace korpusu pro vyhodnocení automatické extrakce termínů = 2 3 2 4 3 == Zadání == … … 10 9 - vhodné jako heslo v terminologickém slovníku počítačové lingvistiky rozsahu cca. 1000 slov (=> má smysl a je možné heslo krátce vysvětlit), 11 10 - v základním tvaru (syntaktických analýzách -> syntaktická analýza), 12 - není vlastní jméno (Noam Chomsky), 13 - názvy institucí, produktů, zkratky jsou povoleny (Ústav pro jazyk český, Český národní korpus, SSJČ),11 - není vlastní jméno (Noam Chomsky), není název instituce (Ústav pro jazyk český), 12 - zkratky jsou povoleny (Britský národní korpus, BNC). 14 13 15 14 Nezáleží na pořadí výskytu ani četnosti termínu v korpuse. Tedy ve výsledku bude každý nalezený termín právě jedenkrát a nezáleží na pořadí termínů. … … 24 23 - pouze částečné termíny: vypouštění, ovzduší 25 24 - cizojazyčné termíny: ecology 25 - názvy, osoby: vrápenec malý, netopýr velký 26 - překlepy: biodpad 27 28 === Sporné případy === 29 V těchto případech záleží na vašem cítění, jak moc je fráze významná pro heslo ve slovníku termínů. 26 30 - nejasné, asi příliš obecné: strom, lidská činnost, technické zařízení, živý organismus, třídění, zemědělská produkce, erozní ohroženost 27 31 - spojení termínů (lépe jako samostatné termíny): lesní ekosystém, emise výfukových plynů, vypouštění odpadních vod, směsný domovní odpad 28 32 - specifikátor navíc: plán odpadového hospodářství, stopová znečišťující látka, politika ochrany životního prostředí (když máme zadefinovaný termín ochrana ŽP, pro účely našeho slovníku není třeba definovat politiku ochrany ŽP) 29 - názvy, osoby: vrápenec malý, netopýr velký30 - překlepy: biodpad31 33 - nesprávná/nestandardní formulace: kryt půdy (správně je půdní kryt), stanoviště stenoekního charakteru (stenoekní stanoviště) 32 34 33 35 === Podheslo hesla === 34 36 Podheslo hesla je povoleno, je-li to v cílové doméně běžné a vzhledem k velikosti slovníku žádané, např. heslo zněčištění může mít podhesla znečištění vody, půdy, ovzduší, jelikož tato znečištění mají svoje specifika, které je třeba rozlišovat, naopak podheslo znečištění životního prostředí je nadbytečné, jelikož primární heslo znečištění se již týká obecně životního prostředí. 37 38 == Ukázky termínů z jiných domén == 39 Termíny byly ručně vybrány ze šesti set vět. Velikost cílového slovníku byla 300 až 500 vět. 40 - [attachment:termeval_eco_cz.sents.terms2.txt ochrana přírody] 41 - [attachment:termeval_music_cz.sents.terms2.txt hudební věda]