搜档网
当前位置:搜档网 › 中国英语学习者语料库CLEC(桂诗春杨惠中)

中国英语学习者语料库CLEC(桂诗春杨惠中)

中国英语学习者语料库CLEC(桂诗春杨惠中)
中国英语学习者语料库CLEC(桂诗春杨惠中)

中国英语学习者语料库

CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内

的5种学生的语料一百多万词,并对言语失误进行标注。其目的就是观察各类学生的英语特征和言语失误的情况,希望通过定量和定性的方法对中国学习者英语作出较为精确的描写,为我国学生的英语教学提供有用的反馈信息。

表1 CLEC语料分布

类型词次

ST2 208088

ST3 209043

ST4 212855

ST5 214510

ST6 226106

总计1070602

言语失误标注原则

1.简单合理,易于系统操作。参与标注的人比较多,分类表过于繁复,就难于掌握。我们采取两级分类,第一级有11类:词形(fm)、动词短语(vp)、名词短语(np)、代词(pr)、形容词短语(aj)、副词(ad)、介词短语(pp)、连词(cj)、词汇(wd)、搭配(cc)、句子(sn)。每一类里再用数目字细分。如[cc]为词语搭配不当,[cc1]表示名词和名词的搭配,[cc2]

表示名词和动词的搭配,[cc3]表示动词和名词的搭配,等等。

2.分类表的类别要适中。过粗容易统一,但信息太少,不利于分析学习者的失误/过细难以统一,容易把同一种失误归到不同类别。目前我们采取的办法是对常见的失误从细(如vp和np都有9小类),对少见的失误从粗(如

cj只有两小类)。现在的分类表有61个失误码,是属于中等规模的分类表。

提供足够的失误信息(失误本身、失误类型和失误发生范围)。例如In the past, people are [vp6, 4-] kind to each other…, 失误用方括号表示,放在失误之后。 [vp6]为vp(动词)第6种(时态)失误,4-为失误发生的范围,-表示失误的位置,4表示失误前有4个词。要联系这4个词,才能判断are这个词用错了。

开放性。容许研究者根据需要对失误类型进行补充或进一步再分出细类。例如[sn8]为句子结构有缺陷,研究者可以对这种失误再分为若干细类来研究。这需要把sn8的失误全部检索出来,然后定出第三级的分类范畴,如sn81,sn82,

等等。

5.对语体或失误的来由暂不作标注,因为这需要标注者较多的主观判断,更难以统一。

言语失误分类表(总数:61)

词形动词短语名词短语代词

码类型码类型码类型码类型

fm1 Spelling vp1 pattern np1 pattern pr1 Reference fm2 word building vp2 set phrase np2 set phrase pr2 anticipato

ry it

fm3 capitalization vp3 agreement np3 agreement pr3 Agreement

vp4 finite/non-fi

nite

np4 case pr4 Case

vp5 non-finite np5 countability pr5 wh-

vp6 tense np6 number pr6 Indefinite

vp7 voice np7 article

vp8 mood np8 quantifiers

vp9 modal/auxilia

ry np9 other

determiners

形容词短语副词介词短语连词

码类型码类型码类型码类型

aj1 pattern ad1 order pp1 pattern cj1 pattern

aj2 set

phrase

ad2 modification pp2 set phrase cj2 set phrase aj3 degree ad3 degree

aj4 -ed/-ing

confusion

aj5 predicati

ve/attrib

utive

词语搭配句子

码类型码类型码类型

wd1 order cc1 noun/noun sn1 run-on

sentence

wd2 part of

speech cc2 noun/verb sn2 sentence

fragment

wd3 substitutio

n cc3 verb/noun sn3 dangling

modifier

wd4 absence cc4 adj/noun sn4 illogical

comparison wd5 redundancy cc5 verb/adv sn5 topic

prominence wd6 repetition cc6 adv/adj sn6 Coordination wd7 ambiguity sn7 Subordinatio

n

sn8 structural

deficiency

sn9 Punctuation

标注说明

码分类类别说明

fm1 word Spelling(拼写)spelling, coinage, abbreviation,

apostrophe

fm2 word word building

(构词)derivation, inflection, compounding, plurality (noun), irregularity(verb), 3rd person singular form(verb), syllabification, hyphenation, word division or fusion

fm3 word Capitalization

(大小写)lower initial letter for upper initial letter or vice versa

vp1 vb phr Pattern(及物性

型式)error in transitivity(vi as vt or vice versa), transitive verb pattern/ grammatical(cf Oxford advanced learner’s dictionary of current English edited by A. S. Hornby)

vp2 vb phr set phrase(固定

词组)phrasal verb and verbal phrase: error in form or use

vp3 vb phr Agreement(主谓

一致性)number agreement with its subject (noun or pronoun)

vp4 vb phr finite/non-fini

te(定式)finite verb for non-finite verb or vice versa

vp5 vb phr non-finite(不定

式)infinitive error: form and use/ infinitive for participle or vice versa/ -ed participle for -ing participle or vice versa

vp6 vb phr Tense(时态)error in tense use within a sentence/

the sequence of tenses between

sentences

vp7 vb phr voice (语态)error in the use of voice: active for

passive or vice versa

vp8 vb phr Mood(语气)error in the use of mood: imperative,

subjunctive/ improper structure of conditional sentences

vp9 vb phr modal/auxiliary

(情态)misuse of modal/auxiliary verbs/ wrong form of modal verb(or auxiliary verb) and verb combination (e.g tense form, voice form, etc)

np1 nn phr Pattern(名词型

式)Error in combination with other words/grammatical

np2 nn phr set phrase(固定

词组)omission or replacement of a fixed element that goes after a certain noun

np3 nn phr Agreement(主谓

一致性)number agreement of a noun with its determiner or a word that refers to it

np4 nn phr Case(格)possessive case error: form or use

np5 nn phr Countability(可

数性)uncountable noun used as countable noun

np6 nn phr Number(数)countable noun used with no determiner

or -s/ a or -s with plural noun

np7 nn phr Article(冠词)a/an confusion or definite/indefinite

confusion

np8 nn phr Quantifiers(数

量词)misuse or confusion between many/much, (a) few/(a) little, some/any, etc

np9 nn phr other

determiners(其

他限定词)misuse or confusion of demonstratives, wh- determiners, numerals, etc.

pr1 pron Reference(指称)incorrect/ambiguous pronoun

reference/anaphoric

pr2 pron anticipatory it

(先行it)improper or wrong use of anticipatory it / it replaced by a demonstrative, etc

pr3 pron Agreement(主谓

一致性)number agreement with a noun it refers to

pr4 pron Case(格)case error of any personal pronoun

pr5 pron wh-(wh-代词)misuse or confusion of interrogative,

relative and conjunctive pronouns

pr6 pron Indefinite(不定

式)misuse or confusion of indefinite pronouns such as all/both,

few/little, some/any, either/neither, etc

aj1 adj Pattern(形容词

型式)error in the combination with other words/grammatical

aj2 adj set phrase(固定

词组)error in the idiomatic use of an adjectival phrase/ omission or replacement of a fixed element that goes after a certain adjective

aj3 adj Degree(级)adjective degree error: form and use

aj4 adj -ed/-ing

confusion

(-ed/-ing混淆)-ed adjective for -ing adjective or vice versa

aj5 adj predicative/att

ributive(谓语/

定语)predicative adjective used as attributive adjective

ad1 adv Order(词序)improper adverb placement/wrong

position

ad2 adv Modification(修

饰语)adjective modifier used as verb modifier/ other kinds of confusion

ad3 adv Degree(级)adverb degree error: form and use

pp1 prep Pattern(介词型

式)unacceptable combination with other words/grammatical

pp2 prep set phrase(固定

词组)error in the formation or use of an idiomatic prepositional phrase

cj1 conj Pattern(连词型

式)unacceptable combination with other words/grammatical

cj2 conj set phrase(固定

词组)error in the formation or use of a phrase functioning as a conjunction

wd1 word Order(词序)misplacement of any word other than an

adverb

wd2 word part of speech

(词类)error in part of speech: right root but wrong word class

wd3 word Substitution(替

代)error in word choice: right word class but wrong selection (any part of speech)

wd4 word Absence(缺少)omission of a word(any part of speech)

wd5 word Redundancy(冗

余)oversuppliance of a word(any part of speech)

wd6 word Repetition(重

复)

unnecessary repeating of a word wd7 word Ambiguity(歧义)not clear word meaning/semantic

cc1 notiona

l n/n collocation

(名词/名词)

improper noun(phrase) and

noun(phrase) combination/semantic

cc2 notiona

l n/v collocation

(名词/动词)

improper noun(phrase) and

verb(phrase) combination/semantic

cc3 notiona

l v/n collocation

(动词/名词)

improper verb and noun(phrase)

combination/semantic

cc4 notiona

l a/n collocation

(形容词/名词)

improper adjective and noun(phrase)

combination/semantic

cc5 notiona

l v/ad

collocation(动

词/副词)

improper verb and adverb (or ad/v)

combination/semantic

cc6

notiona l ad/a collocation (副

词/形容词)

improper adverb and adjective

combination/semantic

sn1 sentenc e run-on sentence (不断句) improper addition of clauses/fused sentence

sn2 sentenc e sentence fragment (片段) subordinate clause as a sentence/ any phrase as a sentence

sn3

sentenc e dangling modifier (垂悬修

饰语)

illogical adverbial modification of a clause

sn4

sentenc e illogical comparison (比较

不符合逻辑)

error in the comparison of words or phrases in a sentence which can not be compared

sn5

sentenc e topic prominence (主题

突出)

the co-occurrence of an initial noun phrase and its equivalent(usually a pronoun) in the same sentence sn6 sentenc e Coordination (并列)

faulty parallelism of clauses (or words/phrases) in a sentence

sn7 sentenc e Subordination (主从) faulty attachment of a subordinate clause to the main clause

sn8

sentenc e structural deficiency (结构

缺陷) error in the grammatical construction of a sentence: improper splitting, pattern shifting, confusing structure, etc

sn9

sentenc e Punctuation (标点符号)

overuse, absence, choice, apostrophe, comma splice, etc.

标准化处理后的各种失误频数及其比例

失误类型 st2

st3

st3

st4 st5 总计 百分比(%)

fm1 1928.8 2877.4 2112.6 1826.7 1686.

7 10432.2 17.47 fm2 349.3 448.9 438.9 226.9 328.7 1792.7 3 fm3 1474.4 731.8 405.8 694.1 174.6 3480.7 5.83 vp1 259.4 325.9 498.4 103.4 200.8 1387.9 2.32 vp2 179 139.3 61.2 104.2 22.1 505.8 0.85 vp3 374 524.6 785.2 273.1 327 2283.9 3.82 vp4 140.8 159.1 110.8 63.9 51.6 526.2 0.88 vp5 140 118.7 107.4 89.9 46.7 502.7 0.84 vp6 1165.7 356 311.6 379.8 215.6 2428.7 4.07 vp7 172.7 104.1 98.4 63.9 46.7 485.8 0.81 vp8

27.1 16.3 8.3 25.2 11.5 88.4 0.15

vp9 111.4 274.3 278.5 42.9 86.1 793.2 1.33 np1 46.9 33.5 28.9 16.8 10.7 136.8 0.23 np2 24.7 22.4 17.4 19.3 2.5 86.3 0.14 np3 202.1 247.7 249.6 210.9 186 1096.3 1.84 np4 66.8 55.9 26.4 22.7 21.3 193.1 0.32 np5 58.9 98 71.9 60.5 84.4 373.7 0.63 np6 374 654.4 481 358.8 354.1 2222.3 3.72 np7 237.9 107.5 89.3 174.8 54.9 664.4 1.11 np8 35 65.4 47.9 13.4 7.4 169.1 0.28 np9 6.4 41.3 12.4 7.6 5.7 73.4 0.12 pr1 82 236.5 205 89.9 18.9 632.3 1.06 pr2 16.7 78.3 23.1 4.2 0 122.3 0.2 pr3 52.5 54.2 172.7 28.6 60.6 368.6 0.62 pr4 74.8 37 20.7 48.7 10.7 191.9 0.32 pr5 26.3 53.3 14.1 7.6 10.7 112 0.19 pr6 9.5 2.6 5 3.4 0 20.5 0.03 aj1 6.4 18.9 15.7 5 9 55 0.09 aj2 9.5 3.4 9.9 5.9 7.4 36.1 0.06 aj3 38.2 39.6 32.2 43.7 97.5 251.2 0.42 aj4 16.7 2.6 22.3 12.6 5.7 59.9 0.1 aj5 0.8 3.4 7.4 1.7 0 13.3 0.02 ad1 35.8 96.3 39.7 27.7 15.6 215.1 0.36 ad2 42.2 37.8 12.4 9.2 4.9 106.5 0.18 ad3 7.2 12 9.9 1.7 2.5 33.3 0.06 pp1 136.1 98 43 169.7 28.7 475.5 0.8 pp2 25.5 262.3 143.8 37 27.9 496.5 0.83 cj1 27.8 20.6 18.2 21.8 12.3 100.7 0.17 cj2 4 7.7 13.2 5.9 4.9 35.7 0.06 Wd1 43.8 151.3 114.1 25.2 37.7 372.1 0.62 Wd2 324.6 929.6 772.8 226.9 242.6 2496.5 4.18 Wd3 1102 1634.7 1815 757.1 359.8 5668.6 9.49 Wd4 585.6 829.8 443.8 403.3 427 2689.5 4.5 Wd5 410.6 613.1 518.2 265.5 171.3 1978.7 3.31 Wd6 27.1 37 22.3 34.5 29.5 150.4 0.25 Wd7 261.8 430.8 261.2 228.6 209.8 1392.2 2.33 cc1 72.4 65.4 76 23.5 36.1 273.4 0.46 cc2 35 177.1 49.6 6.7 21.3 289.7 0.49 Cc3 168.7 514.2 417.4 75.6 112.3 1288.2 2.16 Cc4 64.5 94.6 134.7 42 39.3 375.1 0.63 Cc5 23.9 40.4 29.8 5 4.1 103.2 0.17 Cc6 17.5 12 6.6 2.5 1.6 40.2 0.07 Sn1 419.3 596.8 576.9 118.5 42.6 1754.1 2.94 Sn2 424.9 389.6 303.3 132.8 76.2 1326.8 2.22 Sn3 10.3 20.6 17.4 2.5 10.7 61.5 0.1

Sn4 17.5

24.9 6.6 20.2 4.9 74.1 0.12 Sn5 9.5 14.6 17.4 2.5 4.9 48.9 0.08 Sn6 84.3 41.3 39.7 41.2 1.6 208.1 0.35 Sn7 49.3 55.9 63.6 23.5 3.3 195.6 0.33 Sn8 1103.6 446.3 862.1 493.2 231.9 3137.1 5.25 Sn9 861.7 573.6 337.2 649.5 322.9 2744.9

4.6 总计 1410

5.2 16160.6 13935.9 8883.4 6633.

8 59718.9

100

按大类区分言语失误排列表

st2 st3 st4 st5 st6

总计 百分比 累积百分比 词形 3752.5 4058.1 2957.3 2747.7 2190 15705.6 26.299 26.299 词汇 2755.5 4626.3 3947.4 1941.1 1477.7 14748 24.696 50.995 句法 2980.4 2163.6 2224.2 1483.9 699 9551.1 15.993 66.988 动词 2570.1 2018.3 2259.8 1146.3 1008.1 9002.6 15.075 82.063 名词 1052.7 1326.1 1024.8 884.8 727 5015.4 8.398 90.461 搭配 382 903.7 714.1 155.3 214.7 2369.8 3.968 94.429 代词 261.8 461.9 440.6 182.4 100.9 1447.6 2.424 96.853 介词 161.6 360.3 186.8 206.7 56.6 972 1.628 98.481 形容词 71.6 67.9 87.5 68.9 119.6 415.5 0.696 99.177 副词 85.2 146.1 62 38.6 23 354.9 0.594 99.771 连词 31.8 28.3 31.4 27.7 17.2 136.4 0.228 99.999 总计 14105.2 16160.6 13935.9 8883.4 6633.8 59718.9 99.999 百分比 0.24 0.27 0.23 0.15 0.11

中国学习者最常见的言语失误 类型 st2 st3 st4 st5 st6 总计 百分比fm1 1928.8 2877.4 2112.6 1826.7 1686.7 10432.2 1wd3 1102 1634.7 1815 757.1 359.8 5668.6 fm3 1474.4 731.8 405.8 694.1 174.6 3480.7 sn8 1103.6 446.3 862.1 493.2 231.9 3137.1 sn9 861.7 573.6 337.2 649.5 322.9 2744.9 wd4 585.6 829.8 443.8 403.3 427 2689.5 wd2 324.6 929.6 772.8 226.9 242.6 2496.5 vp6 1165.7 356 311.6 379.8 215.6 2428.7 vp3 374 524.6 785.2 273.1 327 2283.9 np6 374 654.4 481 358.8 354.1 2222.3 wd5 410.6 613.1 518.2 265.5 171.3 1978.7 fm2 349.3 448.9 438.9 226.9 328.7 1792.7

sn1 419.3 596.8 576.9 118.5 42.6 1754.1 wd7 261.8 430.8 261.2 228.6 209.8 1392.2 vp1 259.4 325.9 498.4 103.4 200.8 1387.9 sn2 424.9 389.6 303.3 132.8 76.2 1326.8 cc3 168.7 514.2 417.4 75.6 112.3 1288.2 np3 202.1 247.7 249.6 210.9 186 1096.3 vp9 111.4 274.3 278.5 42.9 86.1 793.2 np7 237.9 107.5 89.3 174.8 54.9 664.4 pr1 82 236.5 205 89.9 18.9 632.3

从上表可看出,

1.词形的3种失误(拼写、构词、大小写)均在其中,

而拼写更是居榜首,占失误中的17.47%。3种失误合并共占20.57%。

2.词汇失误7种中有5种(替代、缺少、词类、冗余、

歧义),占失误中的23.81%。

3.句法失误9种中有4种(结构缺陷、标点符号、不断

句、片段),占失误中的15.01%。

4.动词词组9种中有4种(时态、主谓不一致、及物性、

情态),占失误中的11.54%

5.名词词组9种中有3种(数、主谓不一致、冠词),

占6.67%。

6.其他失误(动词/名词搭配、代词指称),占3.22%。

中国学习者最常见拼写失误表

频数词频数词频数词频数词

379 MORTALITY 23 THEMSELVES 15 LIMITED 12 WRITING

113 KNOWLEDGE 21 FESTIVAL 15 NOTICE 11 ARTICLE

78 POLLUTION 20 BELIEVE 15 OURSELVES 11 CONTRARY

76 ENVIRONMENT 20 COUNTRY 15 PERSONNEL 11 EXERCISE

69 NOWADAYS 19 ESPECIALLY 15 STUDENTS 11 FAVORITE

68 GOVERNMENT 19 FAMILIAR 14 CALENDAR 11 INSTEAD

56 MODERN 19 REMEMBER 14 CAUGHT 11 MASTER

44 PRACTICE 18 COURSE 14 CENTURY 11 PARENT

44 SOMETHING 18 EXERCISES 14 COMPETITION 11 PRACTISE

41 POLLUTED 18 HASTILY 14 FIRST 11 RESOURCE

37 BEAUTIFUL 18 INDUSTRY 14 FURTHERMORE 11 TRAVEL

36 COUNTRIES 18 OFTEN 14 MAGAZINES 10 CONDITION

36 STUDYING 18 SEVERAL 14 MEDICINE 10 DECREASED

35 CHALLENGE 18 TRADITIONAL 14 UNIVERSITY 10 ENERGY

34 TECHNOLOGY 17 CREATE 13 FINANCIAL 10 HAPPINESS

32 BENEFIT 17 GRAMMAR 13 GREAT 10 INDIVIDUALS

32 EUTHANASIA 17 NECESSARY 13 MOREOVER 10 PURSUE

30 BECAUSE 17 PEOPLE 13 OPPORTUNITY 10 RAISE

28 LANTERNS 17 SATURDAY 13 PRACTICAL 10 SHOULD

28 REALIZE 17 THEORETICAL 13 RECEIVED 10 SUCCESS

27 COLLEGE 17 THOUGHT 13 YOURSELF 10 THEREFORE

26 INTERESTING 16 CONTROL 12 EXPECTANCY 10 TRAVELING

25 COMMODITIES 16 CONVENIENT 12 FACTORIES 10 WASTE

25 LANTERN 16 POPULATION 12 OPPORTUNITIES 10 WHETHER

25 SUDDENLY 16 WILLIAM 12 PRACTICES

24 IMPORTANT 15 BEGINNING 12 TRANSPORTATION

中国学习者词汇失误表

失误类

型St2 St3 St4 St5 St6 总计百分比

Wd1 43.8 151.3 114.1 25.2 37.7 372.1 0.62

Wd2 324.6 929.6 772.8 226.9 242.6 2496.5 4.18

Wd3 1102 1634.7 1815 757.1 359.8 5668.6 9.49

Wd4 585.6 829.8 443.8 403.3 427 2689.5 4.5

Wd5 410.6 613.1 518.2 265.5 171.3 1978.7 3.31

Wd6 27.1 37 22.3 34.5 29.5 150.4 0.25

Wd7 261.8 430.8 261.2 228.6 209.8 1392.2 2.33

BCC语料库使用指南

1 、字处理(包括标点符号) [C]:错字标记,用于标示考生写的不成字的字。用[C]代表错字,在[C]前填写正确的字。 例如:地球[C](“球”是错字)、这[C]。 [B]:别字标记,用于标示把甲字写成乙字的情况。别字包括同音的、不同音而只是形似的、既不同音也不形似但成字的等等。把别字移至[B]中B的后面,并在[B]前填写正确的字。 例如:提[B题]高、考虑[B虎]。 [L]:漏字标记,用于标示作文中应有而没有的字。用[L]表示漏掉的字,并在[L]前填写所漏掉的字。 例如: 后悔[L],表示“悔”在原文中是漏掉的字。 农[L]药,表示“农”在原文中是漏掉的字。 [D]:多字标记,用于标示作文中不应出现而出现的字。把多余的字移至[D]中D的后面。 例如:我的[D的],表示括号中的“的”是多余的字(原文中写了两个“的”)。[F]:繁体字标记,用于标示繁体字。把繁体字移至[F]中F的后面,并在[F]前填写简体字。 例如:记忆[F憶]、单{F單}纯、养{F養}分{F份}。 注意: 1)繁体字标记标示的是使用正确的繁体字,如果该繁体字同时又是别字,则先标繁体字标记,再标别字标记。

例如:俭朴[F樸[B僕]]。 2)繁体字写错了,标为:后[F後[C]]。 [Y]:异体字标记,用于标示异体字。把异体字移至[Y]中Y的后面,并在[Y]前填写简体字。 例如:偏[Y徧]、沉[Y沈]。 [P]:拼音字标记,用于标示以汉语拼音代替汉字的情况。把拼音字移至[P]中P的后面,并在[P]前填写简体字。 例如:缘[Pyúan]分、保护[Phù]。 [#]:无法识别的字的标记,用于标示无法识别的字。每个不可识别的字用一个[#]表示。例如:更[#][#]保存自己的生命,…… [BC]:错误标点标记,用于标示使用错误的标点符号。把错误标点移至[BC]中BC的后面,并在[BC]前填写正确的标点符号。 例如:勤奋、[BC,]刻苦的精神。 [BQ]:空缺标点标记,用于标示应用标点符号而未用的情况。把[BQ]插入空缺标点之处,并在[BQ]中BQ的后面填写所缺的标点符号。 例如:周围的环境很安静[BQ,]生活也非常平凡。 [BD]:多余标点标记,用于标示不应用标点符号而用了的情况。把多余的标点移至[BD]中BD的后面。 例如:我家周围的[BD,]美丽风景。 2、词处理:(包括成语) {CC}:错词标记,用于标示错误的词和成语。包括4种情况: 1)把词的构成成分写错顺序的。

自建小型语料库在英语教学中的运用

自建小型语料库在英语教学中的运用 引言:随着语料库语言学近年来的发展,运用电脑语料库进行教学已经成为现代外语教育的新趋势。各种大型语料库(如LOB, BROWN, ELEC)已被广泛用于课堂教学的很多方面,如语料库在语法教学中的应用(何安平,2001;关文玉,2004),语料库在英语精读课中的应用(林丽云,2004)以及语料库在词汇(莫咏仪,2004;邓飞,2004)及写作(胡玉迎,2004)等方面的应用。然而,大型语料库最初的建库目的并非直接用于课堂教学,其语料规模庞大,就语言教学的具体方面而言,难免缺乏针对性,而且,由于价格,市场等原因,个人很难购买到大型语料库及检索软件。因此,在日常教学中,个人教学语料库的建设就显得尤为重要。Ragan(2001)指出小型语料库已成为以课堂为中心的实证教学研究的有力手段。而国内目前对个人教学语料库的研究还相对贫乏,本文将初步探讨自建小型语料库在帮助学生理解课文篇章主题意义方面的作用。 1.自建小型语料库的特征 1.1 针对性强。首先,与大型语料库相比,自建小型语料库规模小,但在内容选择上却比较有针对性,建库者可以根据自己教学及学生自主学习的需要科学的选择合适的语料,从而,使语料能够充分体现学习者的需求,满足不同层次学习者的需要,如目前大多数小学都开设了英语课,但适合这些初学者的语料库却几乎没有。在这种情况下,老师便可以通过因特网搜集儿童英语的材料和儿童感兴趣的话题制成小型语料库,从而是儿童能从开始就学到地道的英语。其次,小型语料库易于突出语言的语域和语体特征,正如Beaugr (2001)所说,依据特定的语域,语篇和话题而建的小型语料库有助于学习者培养语言的体裁,语域,语篇感,深化对语言在具体环境下的涵义的理解。 1.2 实效性强。与大型语料库相比,小型语料库在内容选择上非常灵活,可以避免选择那些语法正确但已经过时的语料,使语料库能跟上语言不断发展变化的步伐,尤其是新闻,杂志等语料更是能把最前沿的语言变体及新词,新句带给学习者。另外,小型语料库标注比较灵活,能满足更多学习者的个性化需求,而且,检索方便快捷,学习者可以在自己的操作过程中去发现目标语的各种语法特征和规律,便于学习者进行自主学习。 2.自建小型语料库促进英语教学的实例 正如Guy(1997)所说,小型语料库有助于学习者通过建构陈述性和程序性知识培养语言使用能力。目前计算机的使用已经相当普遍,所以对中学生灌输有关计算机方面的知识是非常有必要的。下面我们将以the use of computer 一文为例,说明在引导学习者建构该篇课文主题意义及对已有知识进行扩展方面,自建小型语料库能起什么作用。 学习者通过日常接触,对有关计算机方面的基础知识已经有了一定的基本图式,如计算机是一种高科技产品,运用广泛,速度快,因特网,游戏等。然而,若要比较全面的建构出有关计算机的图式,则还需对已有图式进行深入和扩展,如对计算机功能,利弊,历史,前景等方面知识的掌握。为了使学习者能够最大限度熟悉该话题,建构起该话题的心理词库,流利准确的表达该话题的相关知识,我们将利用自建的语料库的词频显现和语境共现功能,为学习者提供大量真实的语料,让学习者在自己观察,分析,概括的基础上归纳出相关图式,建构起该话题的陈述性知识;并通过小组讨论,任务汇报,课堂演示等方法扩展和巩固该话题的图式,从而,实现程序性知识的建构。 2.1 建立相关微型语料库 在大学英语第二册中有一篇the use of computer的课文,主要介绍了计算机的历史及目前计算机在各个行业中的广泛运用。为了向学习者提供更多的相关语料,笔者另外从因特网上搜集了十篇难度和体裁相当的相关文章,通过对无关内容的删减,加工,标注后制成微型

语料库与语料库建设

语料库和语料库建设 一、什么叫语料库 1、定义 语料库,通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是指按照一定的 语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。 目前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。我们看到,以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设计是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。 语料库不同于电子文档,语料库的建设有特定的研究目的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。 语料库具有以下特征:1、语料库的设计与建设有系统的语言学理论指导,语料库的开发具有明确而又具体的目的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,由此保证基于语料库的语言研究的科学性、客观性。3、语料文本是连续的文本或话语片断,而不是孤立的句子或词汇,可以借以获得语法关系、用法、词语搭配以及语篇信息。4、语料库以当代先进的计算机技术为技术手段,语料库语料通过电子文本形式储存并且是通过计算机处理的,具有资源优势和处理速度优势。5、基于语料库的研究以量化研究为基石,以概率统计为手段,以数据驱动为基本理念。6、语料库既是一种研究方法,又代表着一种新的研究思维。 二、语料库产生的背景及发展历史 对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪50年代中期, 在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛围无疑促进了对语料的重视。1959年夸克(R.Quirk)等人着手进行的“英语用法调查”(Survey of English Usage)通过系统的调查建立了第一个现代英语语料库,在此基础上完成的《现代英语语法》( A Grammar of Contemporary English)和《英语语法大全》(A Comprehensive Grammar of the English Language)对现代英语进行了系统全面的描写,在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。

基于双语平行语料库的翻译教学

基于双语平行语料库的翻译教学 翻译是英语专业高年级学生一门非常重要的课程。传统的翻译教学以教师讲解为中心,以翻译教材为学习载体,学生在上完课之后很难具备一定水平的翻译能力。针对于此,我们把双语平行语料库及相应的检索功能引入到翻译教学当中,以提高翻译教学质量,提升学生的翻译能力。 标签:双语平行语料库;翻译;教学 双语平行语料库是指使用两种语言撰写相互间具有翻译关系的文本的集合平台,与普通的词典相比,这种翻译方法更加准确、便利、快捷,更新速度快,可以提供大量真实的双语对译语料以供学习者查询。 何安平指出,将语料库引入翻译教学,会改变传统的翻译教学模式,使学生可以开展各种学习活动,比如互动式学习、开放式学习和分析归类型学习,这一系列学习可以激发学生的好奇心、求知欲,帮助学生塑造的批判精神和反思精神,为培养学生的创新思维提供了条件。 本文例句所使用的双语平行语料库是指北京外国语大学通用双语平行语料库。 1.基于双语平行语料库的词汇翻译 曾有人提出,平行语料库最典型的应用范围之一是双语词汇教学。无论是英译汉还是汉译英,在很多时候英汉两种语言不存在一一对应的词汇,一词多义的现象很普遍,这就意味着这个词有多种译文;而且,在某些特定的语境中,有的词被赋予固定的意思,这又是新的译文。北京外国语大学王克非教授以汉语“克服”一词为例,在北京外国语大学通用汉语双语平行语料库中检索,发现24处“克服”一词中,有15处翻译为overcome。在学生学习完这24个例子后,他们就会明白,在以后的翻译中,不是所有的“克服”都用overcome翻译,在其他情况下使用cope with,fight down,get rid of 等会更加贴切。 学习者可以借助双语平行语料库的真实语境平台,找到单词在不同语境下的地道翻译,既丰富了词汇量,快速准确地译出对应语,同时可增强语感,提升双语翻译能力。 2.基于双语平行语料库的句式翻译 有时候,学生会感觉无论是英语还是汉语,其中一些句式很难理解,至于翻译更是无从下手。在这种情况下,双语平行语料库为学生们提供了大量的特殊句式翻译例句。我们以英文中“it is said that”为例。这是英语中常用的句式,很多学生张口就翻译为“据说”,好像也没有人怀疑过;包括我本人在接触双语平行语料库之前,见到it is said that也随口就翻译为“据说”。但是,笔者通过双语平行语

哪里有可以免费使用的大型英语语料库资源-外语教学与研究出版社

语料库相关资源 David Lee语料库研究书签 Bookmarks for Corpus-based Linguists (David Lee) https://www.sodocs.net/doc/bc17649571.html,.au/~dlee/CBLLinks.htm (https://www.sodocs.net/doc/bc17649571.html,/corpora) 常用语料库资源链接汇集(语料天涯) https://www.sodocs.net/doc/bc17649571.html,/corpus/ 互动平台 https://www.sodocs.net/doc/bc17649571.html,/forum/ 入门读物 专著 梁茂成、李文中、许家金,2010,《语料库应用教程》。北京:外语教学与研究出版社。Hunston, Susan. 2002. Corpora in Applied Linguistics. Cambridge: Cambridge. University Press. (世界图书出版社引进) Kennedy, Graeme. 1998. An Introduction to Corpus Linguistics. London: Longman. (外研社引进) 期刊论文 中国期刊网 EBSCO英文期刊数据库 书店可以买到的语料库相关书籍 Aijmer, K. & B. Altenberg (Eds.). 2004. Advances in Corpus Linguistics. Papers from the 23rd International Conference on English Language Research on Computerized Corpora (ICAME 23). Amsterdam: Rodopi. (世界图书出版社引进) Austermühl, F. 2001. Electronic Tools for Translators《译者的电子工具》. Manchester: St. Jerome Publishing. (外研社引进) Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad & Edward Finegan. 1999. Longman Grammar of Spoken and Written English. Longman Publications Group. (外研社引进) Biber, Douglas, Susan Conrad & Randi Reppen. 1998. Corpus Linguistics. Cambridge: Cambridge University Press. (外研社引进) Connor, U & T. Upton (Eds.). 2004. Applied Corpus Linguistics: A Multidimensional Perspective. Amsterdam: Rodopi. (世界图书出版社引进)

国际儿童口语语料库录写系统的赋码原则初探

国际儿童口语语料库录写系统的赋码原则初探* 王立非1,刘斌2 (1.南京大学, 江苏南京 210093; 2.解放军国际关系学院,江苏南京 210039) 摘要:国际儿童口语语料库是目前世界上最完整的口语语料库之一, 对开展口语语料库研究和语言习得研究具有重要价值,本文探讨该语料库 的录写系统的赋码原则与具体操作问题,对促进我国英语口语语料库的建 立和研究具有借鉴作用和启示意义。 关键词:国际儿童口语语料库;英语口语语料;语料库语言学 中图分类号:文献标识码:文章编号:The CHILDES Corpus: Coding and Operation of the CHAT Tool WANG Lifei1, LIU Bin2 (1. Nanjing University Nanjing, Jiangsu Prov., 210093; 2. PLA International Studies University, Nanjing, Jiangsu Prov., 210039, China) Abstract: This paper describes the basic coding and operating principles of CHAT for the CHILDES talk-bank, a very valuable corpus for studies on spoken English and language acquisition. It aims to promote the development and use of the CHILDES as a reference for constructing the EFL spoken corpus in China. Key words: CHILDES;English spoken corpus;corpus linguistics 1.引言 新世纪的语言学研究已进入计算机时代,基于语料库的研究成果不断涌现,国际儿童口语语料库CHILDES(Child Language Data Exchange System)就是众多语料库中的一员,已有一千项基于这个语料库的研究成果发表。该语料库由美国麦克阿瑟基金会资助,于1984年开始筹建,经过近20年的建设,已成为目前世界上最大的儿童口语语料库。到目前为止,该语料库已收集了包括英语、汉语在内的25种语言。用户可直接从网上免费登录、使用或下载(https://www.sodocs.net/doc/bc17649571.html,/CHA T.html)语料。CHILDES语料库由三部分组成,第一部分是儿童英语口语语料库(DATA-BASE),第二部分为文本赋码系统(CHAT),第三部分为语料分析程序(CLAN),均可在网上免费下载。本文探讨该语料库的录写系统的文本赋码原则和操作,目的是对我国建设英语口语语料库提供借鉴与启示。 2.录写赋码系统的途径与原则

可以免费使用的大型英语语料库资源

英语语料库#参考 2012-03-02 22:29:26 ■BNC=The British National Corpus英国国家语料库 https://www.sodocs.net/doc/bc17649571.html,/(备用) https://www.sodocs.net/doc/bc17649571.html,/bnc/ ■ANC = The American National Corpus美国国家语料库 https://www.sodocs.net/doc/bc17649571.html,/ ■COCA = Corpus of Contemporary American English 美国当代英语语料库 https://www.sodocs.net/doc/bc17649571.html,/ ■COHA = Corpus of Historical American English 美国近当代英语语料库 https://www.sodocs.net/doc/bc17649571.html,/coha/ ■BOE=Bank of English 柯林斯英语语料库 https://www.sodocs.net/doc/bc17649571.html,/wordbanks/ ■NMC=New Model Corpus 新规范语料库 https://www.sodocs.net/doc/bc17649571.html,/ ■ARC=ACL Anthology Reference Corpus (ARC) 文选参考语料库 https://www.sodocs.net/doc/bc17649571.html,/auth/preloaded_corpus/aclarc/ske/first_form ■BAWE=British Academic Written Eng Corpus (BAWE) 英国学术书面语语料库 https://www.sodocs.net/doc/bc17649571.html,/auth/preloaded_corpus/bawe2/ske/first_form https://www.sodocs.net/doc/bc17649571.html,/AcaDepts/ll/app_ling/internal/bawe/sketch_engine_bawe.htm download ■BASE= British Academic Spoken English Corpus (BASE) 英国学术口语语料库 https://www.sodocs.net/doc/bc17649571.html,/fac/soc/celte/research/base/ ■SCTS=Scottish Corpus Of Texts and Speech苏格兰口语与书面语语料库 https://www.sodocs.net/doc/bc17649571.html,/ ■SCTS=Corpus Of Modern Scottish Writing 当代苏格兰语实库 https://www.sodocs.net/doc/bc17649571.html,/cmsw/ Slang https://www.sodocs.net/doc/bc17649571.html,/ (American, English, and Urban slang) https://www.sodocs.net/doc/bc17649571.html,/slang/ (UK) https://www.sodocs.net/doc/bc17649571.html,/ https://www.sodocs.net/doc/bc17649571.html,/cybereng/slang/ https://www.sodocs.net/doc/bc17649571.html,/ https://www.sodocs.net/doc/bc17649571.html,/

CCL语料库与检索系统方案

一关于CCL语料库及其检索系统 (如果时间紧张,可直接跳到最后的举例部分!) 1.1 CCL语料库及其检索系统为纯学术非盈利性的。不得将本系统及其产生的检索结果用于任何商业目的。CCL不承担由此产生的一切后果。 1.2 本语料库仅供语言研究参考之用。语料本身的正确性需要您自己加以核实。 1.3 语料库中所含语料的基本内容信息可以在“高级搜索”页面上,点击相应的链接查看。比如: “作者列表”:列出语料库中所包含的文件的作者 “篇名列表”:列出语料库中所包含的篇目名 “类型列表”:列出语料库中文章的分类信息 “路径列表”:列出语料库中各文件在计算机中存放的目录 “模式列表”:列出语料库中可以查询的模式 1.4 语料库中的中文文本未经分词处理。 1.5 检索系统以汉字为基本单位。 1.6 主要功能特色: ?支持复杂检索表达式(比如不相邻关键字查询,指定距离查询,等等); ?支持对标点符号的查询(比如查询“?”可以检索语料库中所有疑问句); ?支持在“结果集”中继续检索; ?用户可定制查询结果的显示方式(如左右长度,排序等); ?用户可从网页上下载查询结果(text文件); 二关于查询表达式 本节对CCL语料库检索系统目前支持的查询表达式加以说明。 2.1 特殊符号 查询表达式中可以使用的特殊符号包括8个: | $ # + - ~ ! : 这些符号分为四组: Operator1: | Operator2: $ # + - ~ Operaotr3: !

Delimiter: : 符号的含义如下: (一) Operator1: Operator1是二元操作符,它的两边可以出现“基本项”(关于“基本项”的定义见2.2) (1) | 相当于逻辑中的“或”关系。 (二) Operator2:Operator2是二元操作符,它的两边可以出现“简单项”(关于“简单项”的定义见2.3) (2) $ 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数小于或等于Number (3) # 表示它两边的“简单项”出现于同一句中,不考虑前后次序。两个“简单项”之间相隔字数小于或等于Number (4) + 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数刚好等于Number (5) - 表示它左边的“简单项”出现于句子中,并且,在右边相隔Number个字的范围内,-号右边的“简单项”不出现。 (6) ~ 表示它左边的“简单项”出现于句子中,并且,在左边相隔Number个字的范围内,~号右边的“简单项”不出现。 (三)Operator3:Operator3是一元操作符。 (7) ! 表示它后面的“简单项”是本次查询的主关键字符串,显示查询结果时以该“简单项”作为中心来进行定位。 注意: Operator2后面的Number是必须的,不能省略。Number=0表示相 邻,Number=1表示间隔1个单位,其余依此类推。 (四)Delimiter:西文冒号 : 是分隔符 (8) : 跟在 path,author,name,type,pattern 等关键字后面,用于分隔关键字和它们的取值。这样形成的查询式我们称之为“过滤项”(见下面2.5) 注意:上述特殊字符不能作为基本项在语料库中进行检索。path,author等关键字可以作为基本项进行检索。 2.2 基本项 指不包含特殊符号和空格的连续字符串

可以免费使用的大型英语语料库资源

可以免费使用的大型英语语料库资源 https://www.sodocs.net/doc/bc17649571.html,/time/ http://www.lextutor.ca/concordancers/concord_e.html 常用语料库资源链接汇集(语料天涯) http://202.204.128.82/sweccl/Corpus/ https://www.sodocs.net/doc/bc17649571.html,/netprints/Corporalink/Corporalink.htm 1. BNC-World Simple Search ☆☆☆ https://www.sodocs.net/doc/bc17649571.html,/lookup.html But no more than 50 hits will be displayed, with a fixed amount of context. 2. Brown, LOB, BNC sampler ☆☆☆ Here are a few links for searching corpora online, including monolingual corpora like Brown, LOB, and BNC sampler and also some parallel English-Chinese corpora. English: https://www.sodocs.net/doc/bc17649571.html,/concordance/WWWConcappE.htm English: http://www.lextutor.ca/concordancers/concord_e.html Parallel: https://www.sodocs.net/doc/bc17649571.html,/concordance/paralleltexts/ 3. Collins Cobuild Corpus Concordance Sampler☆☆☆☆☆ https://www.sodocs.net/doc/bc17649571.html,/Corpus/CorpusSearch.aspx The Collins WordbanksOnline English corpus is composed of 56 million words of contemporary written and spoken text. 4. New BNC interface - VIEW: ☆☆☆☆☆ https://www.sodocs.net/doc/bc17649571.html,/ 5. Samples (about 2 million words) from the British National Corpus: both written and spoken ☆☆☆ The Brown Corpus and many others - native, learner... Go to http://www.lextutor.ca/concordancers/concord_e.html 6. MICASE ☆☆☆☆ https://www.sodocs.net/doc/bc17649571.html,/m/micase/ There are currently 152 transcripts (totaling 1,848,364 words) available at the site. 7. CLEC online concordancing ☆☆☆☆ https://www.sodocs.net/doc/bc17649571.html,/corpus/EngSearchEngine.aspx CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。For an introduction of the corpus, its error tagset and some statistics, see https://www.sodocs.net/doc/bc17649571.html,/baseinfo/achievement/Achievement1.htm 8. Business Letter Corpus Online KWIC Concordancer ☆☆☆

语料库常用统计方法

3.5语料库常用统计方法 第3章前几节对语料库应用中的几种主要技术做了介绍。通过语料检索、词表和主题词表的生成,可以得到一定数量的句子、词汇或结构。为能更好说明所得到的结果的真正意义,常常需要对它们加以统计学分析。本章主要介绍语料分析中的一些常用统计方法。 3.5.1 语料库与统计方法 介绍相关统计方法之前,首先需要了解为什么语料库应用中需要运用统计方法。在2.1节讲到文本采集时,我们知道文本或会话构成了最终的语料库样本。这些样本是通过一定的抽样方法获得的。研究中,我们需要描述这些样本的出现和分布情况。此外,我们还经常需要观察不同语言项目之间在一定语境中共同出现(简称共现)的概率;以及观察某个(些)语言项目在不同文本之间出现多少的差异性。这些需要借助统计学知识来加以描写和分析。 理论上说,几乎所有统计方法都可以用于语料库分析。本章只择其中一些常用方法做一介绍。我们更注重相关统计方法的实际应用,不过多探讨其统计学原理。这一章我们主要介绍语料分析中的频数标准化(normalization )、频数差异检验和搭配强度的计算方法。 3.5.2 频数标准化 基本原理 通常语料检索、词表生成结果中都会报告频数(frequency, freq 或raw frequency )。那么某词(如many )在某语料库中出现频数为100次说明什么呢?这个词在另一个语料库中出现频数为105次,是否可以说many 在第二个语料库中更常用呢?显然,不能因为105大于100,就认定many 在第二个语料库中更常用。这里大家很容易想到,两个语料库的大小未必相同。按照通常的思维,我们可以算出many 在两个语料库中的出现百分比,这样就可比了。这种情况下,我们是将many 在两个语料库中的出现频数归到一个共同基数100之上,即每100词中出现多少个many 。这里通过百分比得到的频率即是一种标准化频率。有些文献中标准化频率也称归一频率或标称频率,即基于一个统一基准得出的频率。 实例及操作 频数标准化,首先需要用某个(些)检索项的实际观察频数(原始频数,raw frequency )除以总体频数(通常为文本或语料库的总词数),这样得到每一个单词里会出现该检索项多少次。在频数标准化操作中,我们通常会在此基础上乘以1千(1万、1百万)得到平均每千(万、百万)词的出现频率。即: 1000?=总体频数 观测频数标准化频率(每千词) (注:观测频数即检索词项实际出现的次数;总体频数即语料库的大小或总形符数。) 例如,more 在中国学生的作文里出现251次,在英语母语者语料中出现475次。两个语料库的大小分别为37,655词次和174,676词次。我们可以根据上面的公式很容易计算出251和475对应的标准化频率。另外,我们还可以利用Excel 或SPSS 等工具来计算标准化频率。比如,可以将实际观察频数和语料库大小如图3.5.1输入相应的单元格,然后在C1单元格里输入=(A1/B1)*1000即可得到中国学生每千词使用more 约为6.67次。要得到母语

语料库语言学与中国外语教学_桂诗春

2010年11月November 2010 第33卷第4期Vol.33No.4 现代外语(季刊) Modern Foreign Languages (Quarterly )语料库语言学与中国外语教学 桂诗春 冯志伟杨惠中何安平卫乃兴李文中梁茂成 [编者按] 为推动我国应用语言学研究的新发展,教育部人文社科重点研究基地———广东 外语外贸大学外国语言学及应用语言学研究中心于2010年9月24-25日成功举办了“首届广外应用语言学论坛”,庆贺我国著名语言学家、应用语言学学科的开拓者桂诗春教授八十华诞。期间,举行了题为“语料库语言学与外语教学”的高层论坛,就语料库语言学的现状、发展前景及语料库的建设、共享、应用等展开了互动讨论。以下是根据专家发言,整理后的主要内容。 [中图分类号]H319 [文献标识码]A [文章编号]1003-6105(2010)04-0419-08 语料库语言学的发展前景与资源共享 广东外语外贸大学 桂诗春 1.语料库语言学的发展前景 语料库语言学在外国和国内都发展很快,有的人选择了它作为发展方向,因为它的入门比较容易,上手较快;有的人把语料库语言学作为收集数据的重要手段。但是总的来说,我们的语料库研究还处在比较初级阶段,需要提高。究其原因是很多人把它看成是一种工具或手段,可以运用现有的一些现成的程序和公开的语料库,如Brown ,LOB ,Frown. Flob , BNC ,CLEC ,只要选题得当,就能获得很多量化的数据,从而写出洋洋洒洒的文章来。在计算机和扫描仪的支持下,自行收集一些语言素材,建立一个特定的语料库,也不是什么难事。 我觉得,语料库语言学既是一种工具,但更是一门学科;它是对语言行为进行概率性归纳和概括的一门学科,它本身是跨学科性的,要做语料库语言学研究必须许多方面要有比较雄厚的基础。首先是数学和统计学。Herdan (1960)的一本早期著作,叫做《词次/词型数学》(Type /token Mathematics ),其副标题就是《数理语言学教科书》(A Textbook of Mathematical Linguistics ),当时还是前计算机 时代,但Herdan 觉得有两件语言事实值得我们注意:一是大量语言资料(language in mass ),二是语言排列(language in line ),它们是任何语言运作都不能离开的两个方面。某些语言学研究分支如果考虑到这两个方面,将会从中获益。当时还没有真正的机读语料库, Brown 的语料库在1967年才面世,美国心理 学家John Carroll 根据该语料库以及他后来参与制作500万词的AHI 语料库,所提出的词汇频数对数正态模型(lognormal model )均源于Herdan 所奠定的基础。一直到最近美国Barber 利用计算机对英语语体的各种研究,更是利用了因子分析的统计方法。其次是计算机科学。语料库的发展离不开现代科学技术,其主要表现是个人电脑、扫描仪和大容量硬盘的普及,当初Brown 语料库要动用到大型电脑,而到如今,只需一万元左右就能在家里拥有这些设备,制作出甚至比Brown 还要大的语料库。但是我们往往只注意到硬件部分,而不认识到软件的建设。从事语料库语言学研究的人而不掌握一到两种编成语言,也不可能拓展他们的研究领域,因为他不能根据个人的研究需

语料库

关于语料库的三点基本认识:语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源; 在语言学中,语料库(Corpus)指大量文本的集合,库中的文本(称为语料)通常经过整理,具有既定的格式与标记,特指计算机存储的数字化语料库。 语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面。 分类 语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。有人曾经把语料库分成四种类型:(1)异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存储各种语料;(2)同质的(Homogeneous):只收集同一类内容的语料;(3)系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;(4)专用的(Specialized):只收集用于某一特定用途的语料。 除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。目前已经累积了大量各种类型的语料库,如:葡萄牙语种树库、面向文本分类研究的中英文新闻分类语料库、路透社文本分类训练语料库、中文文本分类语料库、大开放字幕库OpenSubtitles的多语言平行语料数据(OpenSubtitles Corpus)、《圣经》双语语料库("Bible" bilingual corpus)、Short messages service(SMS ) corpus(短消息服务(SMS)语料)等。 特征 语料库有三点特征 1.语料库中存放的是在语言的实际使用中真实出现过的语言材料,因此例句库通常不应算作语料库; 2.语料库是承载语言知识的基础资源,但并不等于语言知识;

国外个主流语料库使用

1. The Complete Lexical Tutor http://www.lextutor.ca/ 参考期刊网上刘玉山,胡志军的介绍。 是一个语料库中心词索引软件(concordancer),加拿大魁北克大学Tom Cobb the University of Quebec at Montreal (UQAM), 开发 三部分:learners, researchers, teachers自我学习,研究,教师命题。 特别是concordance中有13个语料库为检索对象。还可以用来对学生作文中的用词分析。http://www.lextutor.ca/concordancers/concord_e.html 可以同时提供多个语料库的在线搜索,但缺点是每次只能对一个文本加工。 2.BNC 2014年开始,免费获得,通过BYU的申请。 British National Corpus 一亿词,书面语90%,口语10%,共4124篇文本,从1980到1993年的语料 英国牛津出版社﹑朗文出版公司﹑钱伯斯—哈洛普出版公司﹑牛津大学计算机服务中心、兰卡斯特大学英语计算机中心以及大英图书馆等联合开发建立的大型语料库 共有七类 口语spoken,小说fiction,流行杂志magazine,报纸newspaper和学术期刊academic 还有COCA分类中没有的两类non-academic, miscellaneous second edition BNC World (2001) third edition BNC XML Edition (2007) extracts from regional and national newspapers, specialist periodicals and journals for all ages and interests, academic books and popular fiction, published and unpublished letters and memoranda, school and university essays, among many other kinds of text 通常可进入的那个链接是BYU, 美国杨百翰大学提供的 BYU大学在2012年对语料库经行了重新附码,用的CLAWS 7 3. COCA: the corpus of contemporary American English Brigham Young University 美国犹他州杨百翰大学 Doctor Mark Davies 3.6亿,1990-2007年间,美国国内各种语料 口语spoken,小说fiction,流行杂志magazine,报纸newspaper和学术期刊academic共五类语料来源 且持续更新中,每年以2000万词递增,目前到1990-2012,共4.5亿词 Display:显示方式,compare选项可以用来比较两个词的搭配区别,排列方式选择relevance 相关度 标记了语料的时间,便于研究语言历时与共时的变化 教学中相关用法 查找同义词,如[=scold].[V*]表示查找所有scold的同义词

语料库常用术语

语料库常用术语 Type 类符 Tokens 形符 例如“I see a cat and a dog”类符6个,形符7个 Type/token ratio =TTR TTR 是衡量文本中词汇密度的常用方法,可以辅助说明文本的词汇难度。但是,文本中有大量功能词出现,文本每增加一个词,形符就会增加一个,但类符却未必随之增加。这样文本越长,功能词重复次数越多,TTR会越低。因此用TTR衡量词汇密度不合理,于是,出现了标准化类符/形符比,即STTR。例如,计算每个文本1000词的TTR,均值处理,得出STTR。Frequency(频率) 例如每百万词、十万词中,某单词出现次数。常常将某个单词在两个语料库中出现的频率参照两个语料库的容量,用卡方检验或对数似然率进行对比,来确定两个库中该单词的使用是否有差异。 Wordlist词表 根据单词或词组在语篇中出现的频率大小而排列形成的列表。 Ranks Lemma词目,词元 比如go是lemma,对应各种屈折变化形式(inflections),go,goes,went,going,gone共5种屈折变化形式。在分析语言时,需要将它们全部归到go名下,这个过程叫词形还原。Keywords关键词、主题词positive keywords 正关键词negative keywords 负关键词Concordance 索引(KWIC 语境中的关键词key words in context) 运用索引软件在语料库中查询某词或短语的使用实例,然后将所有符合条件的语言使用实例及其语境以清单的形式列出。通过前后语境,可以分析“collocation词汇搭配”“colligation 类连接、语法搭配”“semantic preference语义倾向”“semantic prosody语义韵”Collocation词汇搭配 搭配强度MI,T-score ,Z-score Colligation类连接、语法搭配 semantic prosody语义韵 词汇的语义韵大体可分为积极语义韵、中性语义韵、消极语义韵。 POS tagging 词性赋码 Regular expression regex 正则表达式

语料库的应用(最终)

语料库的应用 语料库方法广泛应用于语言学理论研究、军事等领域。当代语料库语言学(以语料库方法为取向的研究语言的分支就被称为语料库语言学)已是高歌猛进,日新月异,新的语料库更是层出不穷,经过科学选材和标注,具有适当规模的语料库能够反映和记录语言的实际使用情况,人们通过语料库观察和把握语言事实,分析和研究语言系统的规律,极大地方便了语言研究者。 军事语料库对信息化条件下的军事斗争具备潜在价值,积极开展军事语料库的研究和建设实践活动,并把研究成果转化到实战之中。和平时期对信息化高科技武器的建设不可小视,对战场态势的综合信息捕捉、把握和利用的能力建设至关重要,但对身边已有的各类信息的综合收集和利用也同样不可忽视。军事语料库的建设正是针对实现信息化战争中争夺与占有信息资源、获取不对称的战争中的信息掌握和信息利用的不对称优势。 【一】、语料库成为语言学理论研究的基础资源 语料库是计算语言学的基础。语料库对应的英文是corpus,复数形式为corpora。这个词既可以指语料也可以表示语料库。英国语言学专家戴维?克里斯特尔认为,语料库“指收集的一批语言学数据,或为书面文本或为言语录音的转写,可用作语言学描写的出发点,也

可作为验证语言假说的手段。计算机语料库是一大批机器可读文本的结集。各种为不同目的而建立的语料库可以应用在词汇、语法、语义、语用、语体研究,社会语言学研究,口语研究,词典编纂,语言教学以及自然语言处理、人工智能、机器翻译、言语识别与合成等领域。 起初语料库主要用于语言学研究,而且建成的语料库多为通用语料库,服务的研究领域主要集中于词典编纂、词语搭配与结构、基于平行语料库的英汉互译、文学作品和作家语言风格的研究以及基于语料库的外语教学研究等。随着研究的不断深入,各种专业领域语料库也相继建立,语料库的应用研究逐渐扩大到其他学科。 我国在语料库的应用上还处于起步阶段,在计算语言学和语言信息处理领域,语料库主要用来为统计语言模型提供语言特征信息和概率数据,在语言研究的其他领域,多使用语料的检索和频率统计结果。 目前国外已建成且较有影响的主要为以下的语料库:美国:布朗大学的今日美国英语标准语料库(The Brown University Standard Corpusof Present Day American English)、兰卡斯特一奥斯陆/卑尔根语料库(The Lancast-er-Oslo/Bergen (LOB) Corpus)、英语语库(TheBank of English)、英国国家语料库(The BritishNational Corpus(BNC、伦敦一隆德语料库(Lon-don -Lund Corpus(LLC》、美国传统中介语料(American Heritage Intermediate(AHI) Corpus)以及英语国际语料库(The Intemational Corpus ofEnglish(ICE》等。

相关主题