private/NlpInPracticeCourse/CorpusIndexing: bnc

File bnc, 5.5 KB (added by Miloš Jakubíček, 7 months ago)

BNC corpus configuration file

Line 
1NAME   "British National Corpus v1.0 old"
2PATH   /corpora/manatee/bnc
3VERTICAL "|xzcat /corpora/vert/bnc/bnc.vert.xz"
4ENCODING "UTF-8"
5NEWVERSION "bnc2"
6
7LANGUAGE "English"
8INFOHREF "http://www.natcorp.ox.ac.uk"
9
10DEFAULTATTR lc
11
12MAXCONTEXT 100
13MAXDETAIL 100
14
15FULLREF "bncdoc.id,bncdoc.difficulty,bncdoc.gdex_band,bncdoc.gdex_score,bncdoc.author,bncdoc.year,bncdoc.title,bncdoc.info,bncdoc.allava,bncdoc.alltim,bncdoc.alltyp,bncdoc.genre,u.who"
16SUBCORPATTRS "bncdoc.alltyp|bncdoc.alltim,bncdoc.wridom|bncdoc.wrimed,bncdoc.genre|u.who,bncdoc.gdex_score,bncdoc.gdex_band,bncdoc.difficulty"
17
18WSPOSLIST ",noun,-n,verb,-v,adjective,-j"
19
20LPOSLIST ",adjective,-j,adverb,-a,conjunction,-c,noun,-n,preposition,-p,pronoun,-d,verb,-v"
21WPOSLIST ",adjective,AJ.,adverb,AV.,conjunction,CJ.,determiner,AT0,noun,NN.,noun singular,NN1,noun plural,NN2,preposition,PR.,pronoun,DPS|PN.,verb,V.*"
22
23TAGSETDOC "https://www.sketchengine.co.uk/documentation/wiki/tagsets/bnc"
24
25ATTRIBUTE   word
26ATTRIBUTE   ambtag
27
28ATTRIBUTE   lempos
29
30ATTRIBUTE   tag {
31        DYNAMIC getfirstn
32        DYNLIB  internal
33        ARG1    "3"
34        FUNTYPE i
35        FROMATTR ambtag
36        TYPE   index
37}
38
39ATTRIBUTE   lemma {
40        DYNAMIC striplastn
41        DYNLIB  internal
42        ARG1    "2"
43        FUNTYPE i
44        FROMATTR lempos
45        TYPE   index
46}
47
48ATTRIBUTE   lc {
49        DYNAMIC  utf8lowercase
50        DYNLIB   internal
51        ARG1     "C"
52        FUNTYPE  s
53        FROMATTR word
54        TYPE     index
55        TRANSQUERY      yes
56}
57
58ATTRIBUTE   lemma_lc {
59        DYNAMIC  utf8lowercase
60        DYNLIB   internal
61        ARG1     "C"
62        FUNTYPE  s
63        FROMATTR lemma
64        TYPE     index
65        TRANSQUERY      yes
66}
67
68STRUCTURE   bncdoc {
69        ATTRIBUTE difficulty
70        ATTRIBUTE gdex_band
71        ATTRIBUTE gdex_score
72        ATTRIBUTE id
73        #ATTRIBUTE date
74        ATTRIBUTE author {
75                MULTIVALUE y
76                MULTISEP   ";"
77        }
78        ATTRIBUTE title
79        ATTRIBUTE info
80    ATTRIBUTE allava {
81         LABEL "Text availability"
82    }
83    ATTRIBUTE alltyp {
84         LABEL "Text type"
85    }
86    ATTRIBUTE alltim {
87         LABEL "Publication date"
88    }
89        ATTRIBUTE genre {
90                LABEL "David Lee's classification"
91        ATTRDOC "http://rdues.bcu.ac.uk/bncweb/genres.html"
92        ATTRDOCLABEL "Documentation"
93        }
94    ATTRIBUTE wridom {
95         LABEL "Domain for written corpus texts"
96    }
97    ATTRIBUTE scgdom {
98         LABEL "Domain for context-governed spoken material"
99    }
100    ATTRIBUTE wrimed {
101         LABEL "Medium for written corpus texts"
102    }
103    ATTRIBUTE sdeage {
104         LABEL "Age band for demographic respondent"
105    }
106    ATTRIBUTE sdecla {
107         LABEL "Social class for demographic repondent"
108    }
109    ATTRIBUTE sdesex {
110         LABEL "Sex of demographic respondent"
111    }
112    ATTRIBUTE spolog {
113         LABEL "Interaction type for spoken text"
114    }
115    ATTRIBUTE sporeg {
116         LABEL "Region where spoken text captured"
117    }
118    ATTRIBUTE wriaag {
119         LABEL "Author age band for written material"
120    }
121    ATTRIBUTE wriad {
122         LABEL "Author domicile"
123    }
124    ATTRIBUTE wriase {
125         LABEL "Written: author sex"
126    }
127    ATTRIBUTE wriaty {
128         LABEL "Written: type of author"
129    }
130    ATTRIBUTE wriaud {
131         LABEL "Written: audience age"
132    }
133    ATTRIBUTE wrilev {
134         LABEL "Written: perceived level of difficulty:"
135    }
136    ATTRIBUTE wripp {
137         LABEL "Place of publication"
138    }
139    ATTRIBUTE wrisam {
140         LABEL "Written text sample type"
141    }
142    ATTRIBUTE wrista {
143         LABEL "Written: estimated circulation size"
144    }
145    ATTRIBUTE writas {
146         LABEL "Written: target audience sex"
147    }
148
149        ATTRIBUTE year
150    ATTRIBUTE wordcount
151}
152
153STRUCTURE   text {
154        ATTRIBUTE org
155        ATTRIBUTE decls
156}
157
158STRUCTURE   s {
159        ATTRIBUTE n
160}
161
162STRUCTURE   p {
163    ATTRIBUTE n
164        ATTRIBUTE rend
165}
166
167
168STRUCTURE   align
169
170STRUCTURE   caption {
171        ATTRIBUTE id
172        ATTRIBUTE rend
173        ATTRIBUTE type
174}
175
176STRUCTURE   hi {
177        ATTRIBUTE rend
178}
179STRUCTURE   lb {
180        #ATTRIBUTE type
181}
182
183STRUCTURE   bibl
184
185STRUCTURE   body
186
187STRUCTURE   div {
188        ATTRIBUTE n
189        #ATTRIBUTE org
190        #ATTRIBUTE rend
191        ATTRIBUTE type
192    ATTRIBUTE decls
193}
194STRUCTURE   div1 {
195        ATTRIBUTE n
196        ATTRIBUTE org
197        ATTRIBUTE rend
198        ATTRIBUTE type
199}
200STRUCTURE   div2 {
201        ATTRIBUTE n
202        ATTRIBUTE org
203        ATTRIBUTE rend
204        ATTRIBUTE type
205}
206STRUCTURE   div3 {
207        ATTRIBUTE n
208        ATTRIBUTE org
209        ATTRIBUTE rend
210        ATTRIBUTE type
211}
212STRUCTURE   div4 {
213        ATTRIBUTE n
214        ATTRIBUTE org
215        ATTRIBUTE type
216}
217
218STRUCTURE   head {
219        ATTRIBUTE n
220        ATTRIBUTE rend
221        ATTRIBUTE type
222}
223
224STRUCTURE   item {
225        ATTRIBUTE rend
226}
227STRUCTURE   l {
228        ATTRIBUTE rend
229}
230STRUCTURE   label {
231        ATTRIBUTE rend
232}
233STRUCTURE   list {
234        ATTRIBUTE rend
235}
236STRUCTURE   note {
237        ATTRIBUTE id
238        ATTRIBUTE n
239        ATTRIBUTE place
240        ATTRIBUTE rend
241        ATTRIBUTE resp
242        ATTRIBUTE type
243}
244
245STRUCTURE   pb {
246        ATTRIBUTE n
247        #ATTRIBUTE type
248}
249STRUCTURE   poem {
250        ATTRIBUTE rend
251}
252STRUCTURE   quote {
253        ATTRIBUTE rend
254        ATTRIBUTE type
255}
256STRUCTURE   salute {
257        ATTRIBUTE rend
258}
259
260STRUCTURE   corr {
261        ATTRIBUTE rend
262        ATTRIBUTE resp
263        ATTRIBUTE sic
264}
265
266STRUCTURE   sic {
267        ATTRIBUTE rend
268        ATTRIBUTE resp
269    ATTRIBUTE corr
270}
271STRUCTURE   sp {
272        ATTRIBUTE who
273}
274STRUCTURE   spkr {
275        ATTRIBUTE rend
276}
277STRUCTURE   stage {
278        ATTRIBUTE id
279        ATTRIBUTE rend
280        ATTRIBUTE type
281}
282
283STRUCTURE   u {
284        ATTRIBUTE who {
285        LABEL "Speaker ID"
286    }
287}
288
289STRUCTURE   event {
290        ATTRIBUTE desc
291        #ATTRIBUTE type
292    ATTRIBUTE dur
293}
294
295STRUCTURE   gap {
296        ATTRIBUTE desc
297        ATTRIBUTE reason
298        ATTRIBUTE resp
299        #ATTRIBUTE type
300}
301
302STRUCTURE   loc {
303        ATTRIBUTE id
304}
305
306STRUCTURE   pause {
307        ATTRIBUTE dur
308        #ATTRIBUTE type
309}
310
311STRUCTURE   shift {
312        ATTRIBUTE new
313        #ATTRIBUTE type
314}
315
316STRUCTURE   trunc
317
318STRUCTURE   unclear {
319        ATTRIBUTE dur
320        #ATTRIBUTE type
321}
322
323STRUCTURE   vocal {
324        ATTRIBUTE desc
325        #ATTRIBUTE type
326}
327
328STRUCTURE g {
329        DISPLAYTAG 0
330        DISPLAYBEGIN "_EMPTY_"
331}
332DOCSTRUCTURE "bncdoc"