wiki:TermDB

Version 2 (modified by xsuchom2, 7 years ago) (diff)

sporné případy, ukázky

Hledání termínů -- anotace korpusu pro vyhodnocení automatické extrakce termínů

Zadání

Vaším úkolem je vybrat termíny z oblasti počítačové lingvistiky z korpusu. Každý dostane svou část korpusu -- textový soubor se 3500 větami. Výstupem je textový soubor v kódování UTF-8 obsahující termíny vybrané z vaší části korpusu, jeden termín na řádku.

Vyberte právě termíny splňující všechny následující podmínky:

  • jméno, přívlastek, nebo jmenná fráze,
  • vyskytuje se ve vašem úseku korpusu,
  • vhodné jako heslo v terminologickém slovníku počítačové lingvistiky rozsahu cca. 1000 slov (=> má smysl a je možné heslo krátce vysvětlit),
  • v základním tvaru (syntaktických analýzách -> syntaktická analýza),
  • není vlastní jméno (Noam Chomsky), není název instituce (Ústav pro jazyk český),
  • zkratky jsou povoleny (Britský národní korpus, BNC).

Nezáleží na pořadí výskytu ani četnosti termínu v korpuse. Tedy ve výsledku bude každý nalezený termín právě jedenkrát a nezáleží na pořadí termínů.

V případě otázek se neváhejte obrátit na Vojtěcha Kováře <xkovar3@fi.muni.cz>.

Ukázky problémových případů z domény ochrany přírody

Nevhodné případy

  • obecné jmenné fráze: polovina dubna, Česká republika, koncept lesnictví
  • termín ano ale v jiné oblasti: uhlovodík, matečná hornina, predátor, výhřevnost, redukční rovnice, vnitrodruhový polymorfismus
  • pouze částečné termíny: vypouštění, ovzduší
  • cizojazyčné termíny: ecology
  • názvy, osoby: vrápenec malý, netopýr velký
  • překlepy: biodpad

Sporné případy

V těchto případech záleží na vašem cítění, jak moc je fráze významná pro heslo ve slovníku termínů.

  • nejasné, asi příliš obecné: strom, lidská činnost, technické zařízení, živý organismus, třídění, zemědělská produkce, erozní ohroženost
  • spojení termínů (lépe jako samostatné termíny): lesní ekosystém, emise výfukových plynů, vypouštění odpadních vod, směsný domovní odpad
  • specifikátor navíc: plán odpadového hospodářství, stopová znečišťující látka, politika ochrany životního prostředí (když máme zadefinovaný termín ochrana ŽP, pro účely našeho slovníku není třeba definovat politiku ochrany ŽP)
  • nesprávná/nestandardní formulace: kryt půdy (správně je půdní kryt), stanoviště stenoekního charakteru (stenoekní stanoviště)

Podheslo hesla

Podheslo hesla je povoleno, je-li to v cílové doméně běžné a vzhledem k velikosti slovníku žádané, např. heslo zněčištění může mít podhesla znečištění vody, půdy, ovzduší, jelikož tato znečištění mají svoje specifika, které je třeba rozlišovat, naopak podheslo znečištění životního prostředí je nadbytečné, jelikož primární heslo znečištění se již týká obecně životního prostředí.

Ukázky termínů z jiných domén

Termíny byly ručně vybrány ze šesti set vět. Velikost cílového slovníku byla 300 až 500 vět.

Attachments (5)

Download all attachments as: .zip