wiki:TermDB

Hledání termínů -- anotace korpusu pro vyhodnocení automatické extrakce termínů

Zadání

Vaším úkolem je vybrat termíny z oblasti počítačové lingvistiky z korpusu. Každý dostane svou část korpusu -- textový soubor se 3500 větami. Výstupem je textový soubor v kódování UTF-8 obsahující termíny vybrané z vaší části korpusu, jeden termín na řádku.

Vyberte právě termíny splňující všechny následující podmínky:

  • jméno, přívlastek, nebo jmenná fráze,
  • vyskytuje se ve vašem úseku korpusu,
  • vhodné jako heslo v terminologickém slovníku počítačové lingvistiky (=> má smysl a je možné heslo krátce vysvětlit),
  • není vlastní jméno (Noam Chomsky), není název instituce (Ústav pro jazyk český),
  • zkratky jsou povoleny (bezkontextová gramatika -> CFG),
  • termíny převeďte na základní tvar (syntaktických analýzách -> syntaktická analýza).

Nezáleží na pořadí výskytu ani četnosti termínu v korpuse. Tedy ve výsledku bude každý nalezený termín právě jedenkrát a nezáleží na pořadí termínů.

Samozřejmě narazíte na spoustu sporných případů, problém není příliš ostře definován. V takových přpadech se řiďte svou intuicí a odbornými znalostmi -- představte si, že jste v pozici editora terminologického slovníku lingvistiky (s potenciálně neomezeným rozsahem) a musíte rozhodnout, která hesla tam zařadíte a která ne.

V případě otázek se neváhejte obrátit na Vojtěcha Kováře <xkovar3@fi.muni.cz>. Na jeho e-mailovou adresu rovněž posílejte vypracovaná řešení.

Ukázky problémových případů z domény ochrany přírody

Nevhodné případy

  • obecné jmenné fráze: polovina dubna, Česká republika, koncept lesnictví
  • termín ano ale v jiné oblasti: uhlovodík, matečná hornina, predátor, výhřevnost, redukční rovnice, vnitrodruhový polymorfismus
  • pouze částečné termíny: vypouštění, ovzduší
  • cizojazyčné termíny: ecology
  • názvy, osoby: vrápenec malý, netopýr velký
  • překlepy: biodpad

Podheslo hesla

Podheslo hesla je povoleno, je-li to v cílové doméně běžné a vzhledem k velikosti slovníku žádané, např. heslo zněčištění může mít podhesla znečištění vody, půdy, ovzduší, jelikož tato znečištění mají svoje specifika, které je třeba rozlišovat, naopak podheslo znečištění životního prostředí je nadbytečné, jelikož primární heslo znečištění se již týká obecně životního prostředí.

Ukázky termínů z jiných domén

Termíny byly ručně vybrány ze šesti set vět.

Last modified 6 years ago Last modified on Apr 22, 2014 5:16:55 PM

Attachments (5)

Download all attachments as: .zip