搜档网
当前位置:搜档网 › 中国英语学习者语料库

中国英语学习者语料库

中国英语学习者语料库
中国英语学习者语料库

中国英语学习者语料库

CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。其目的就是观察各类学生的英语特征和言语失误的情况,希望通过定量和定性的方法对中国学习者英语作出较为精确的描写,为我国学生的英语教学提供有用的反馈信息。

表1 CLEC语料分布

类型词次

ST2 208088

ST3 209043

ST4 212855

ST5 214510

ST6 226106

总计1070602

言语失误标注原则

1.简单合理,易于系统操作。参与标注的人比较多,分类表过于繁复,就

难于掌握。我们采取两级分类,第一级有11类:词形(fm)、动词短语(vp)、名词短语(np)、代词(pr)、形容词短语(aj)、副词(ad)、介词短语(pp)、连词(cj)、词汇(wd)、搭配(cc)、句子(sn)。每一类里再用数目字细分。如[cc]为词语搭配不当,[cc1]表示名词和名词的搭配,[cc2]表示名词和动词的搭配,[cc3]表示动词和名词的搭配,等等。

2.分类表的类别要适中。过粗容易统一,但信息太少,不利于分析学习者

的失误/过细难以统一,容易把同一种失误归到不同类别。目前我们采取的办法是对常见的失误从细(如vp和np都有9小类),对少见的失误从粗(如cj只有两小类)。现在的分类表有61个失误码,是属于中等规模的分类表。

提供足够的失误信息(失误本身、失误类型和失误发生范围)。例如In the past, people are [vp6, 4-] kind to each other…, 失误用方括号表示,放在失误之后。 [vp6]为vp(动词)第6种(时态)失误,4-为失误发生的范围,-表示失误的位置,4表示失误前有4个词。要联系这4个词,才能判断are这个词用错了。

开放性。容许研究者根据需要对失误类型进行补充或进一步再分出细类。例如[sn8]为句子结构有缺陷,研究者可以对这种失误再分为若干细类来研究。这需

要把sn8的失误全部检索出来,然后定出第三级的分类范畴,如sn81,sn82,

等等。

5.对语体或失误的来由暂不作标注,因为这需要标注者较多的主观判断,更

难以统一。

言语失误分类表(总数:61)

词形动词短语名词短语代词

码类型码类型码类型码类型fm1 Spelling vp1 pattern np1 pattern pr1 Reference fm2 word building vp2 set phrase np2 set phrase pr2 anticipatory

it

fm3 capitalization vp3 agreement np3 agreement pr3 Agreement

vp4 finite/non-finite np4 case pr4 Case

vp5 non-finite np5 countability pr5 wh-

vp6 tense np6 number pr6 Indefinite

vp7 voice np7 article

vp8 mood np8 quantifiers

vp9 modal/auxiliary np9 other

determiners

形容词短语副词介词短语连词

码类型码类型码类型码类型

aj1 pattern ad1 order pp1 pattern cj1 pattern

aj2 set phrase ad2 modification pp2 set phrase cj2 set phrase aj3 degree ad3 degree

aj4 -ed/-ing

confusion

aj5 predicative

/attributive

词语搭配句子

码类型码类型码类型

wd1 order cc1 noun/noun sn1 run-on

sentence

wd2 part of speech cc2 noun/verb sn2 sentence

fragment

wd3 substitution cc3 verb/noun sn3 dangling

modifier

wd4 absence cc4 adj/noun sn4 illogical

comparison

wd5 redundancy cc5 verb/adv sn5 topic

prominence

wd6 repetition cc6 adv/adj sn6 Coordination

wd7 ambiguity sn7 Subordination

sn8 structural

deficiency

sn9 Punctuation

标注说明

码分类类别说明

fm1 word Spelling(拼写)spelling, coinage, abbreviation,

apostrophe

fm2 word word building

(构词)derivation, inflection, compounding, plurality (noun), irregularity(verb), 3rd person singular form(verb), syllabification, hyphenation, word division or fusion

fm3 word Capitalization

(大小写)lower initial letter for upper initial letter or vice versa

vp1 vb phr Pattern(及物性

型式)error in transitivity(vi as vt or vice versa), transitive verb pattern/ grammatical(cf Oxford advanced learner’s dictionary of current English edited by A. S. Hornby)

vp2 vb phr set phrase(固定

词组)phrasal verb and verbal phrase: error in form or use

vp3 vb phr Agreement(主谓

一致性)number agreement with its subject (noun or pronoun)

vp4 vb phr finite/non-fini

te(定式)finite verb for non-finite verb or vice versa

vp5 vb phr non-finite(不定

式)infinitive error: form and use/ infinitive for participle or vice versa/ -ed participle for -ing participle or vice versa

vp6 vb phr Tense(时态)error in tense use within a sentence/

the sequence of tenses between

sentences

vp7 vb phr voice (语态)error in the use of voice: active for

passive or vice versa

vp8 vb phr Mood(语气)error in the use of mood: imperative,

subjunctive/ improper structure of

conditional sentences

vp9 vb phr modal/auxiliary

(情态)misuse of modal/auxiliary verbs/ wrong form of modal verb(or auxiliary verb) and verb combination (e.g tense form, voice form, etc)

np1 nn phr Pattern(名词型

式)Error in combination with other words/grammatical

np2 nn phr set phrase(固定

词组)omission or replacement of a fixed element that goes after a certain noun

np3 nn phr Agreement(主谓

一致性)number agreement of a noun with its determiner or a word that refers to it

np4 nn phr Case(格)possessive case error: form or use

np5 nn phr Countability(可

数性)uncountable noun used as countable noun

np6 nn phr Number(数)countable noun used with no determiner

or -s/ a or -s with plural noun

np7 nn phr Article(冠词)a/an confusion or definite/indefinite

confusion

np8 nn phr Quantifiers(数

量词)misuse or confusion between many/much, (a) few/(a) little, some/any, etc

np9 nn phr other

determiners(其

他限定词)misuse or confusion of demonstratives, wh- determiners, numerals, etc.

pr1 pron Reference(指称)incorrect/ambiguous pronoun

reference/anaphoric

pr2 pron anticipatory it

(先行it)improper or wrong use of anticipatory it / it replaced by a demonstrative, etc

pr3 pron Agreement(主谓

一致性)number agreement with a noun it refers to

pr4 pron Case(格)case error of any personal pronoun

pr5 pron wh-(wh-代词)misuse or confusion of interrogative,

relative and conjunctive pronouns

pr6 pron Indefinite(不定

式)misuse or confusion of indefinite pronouns such as all/both,

few/little, some/any, either/neither, etc

aj1 adj Pattern(形容词

型式)error in the combination with other words/grammatical

aj2 adj set phrase(固定

词组)error in the idiomatic use of an adjectival phrase/ omission or replacement of a fixed element that goes after a certain adjective

aj3 adj Degree(级)adjective degree error: form and use

aj4 adj -ed/-ing

confusion

(-ed/-ing混淆)-ed adjective for -ing adjective or vice versa

aj5 adj predicative/att

ributive(谓语/

定语)predicative adjective used as attributive adjective

ad1 adv Order(词序)improper adverb placement/wrong

position

ad2 adv Modification(修

饰语)adjective modifier used as verb modifier/ other kinds of confusion

ad3 adv Degree(级)adverb degree error: form and use

pp1 prep Pattern(介词型

式)unacceptable combination with other words/grammatical

pp2 prep set phrase(固定

词组)error in the formation or use of an idiomatic prepositional phrase

cj1 conj Pattern(连词型

式)unacceptable combination with other words/grammatical

cj2 conj set phrase(固定

词组)error in the formation or use of a phrase functioning as a conjunction

wd1 word Order(词序)misplacement of any word other than an

adverb

wd2 word part of speech

(词类)error in part of speech: right root but wrong word class

wd3 word Substitution(替

代)error in word choice: right word class but wrong selection (any part of speech)

wd4 word Absence(缺少)omission of a word(any part of speech)

wd5 word Redundancy(冗

余)oversuppliance of a word(any part of speech)

wd6 word Repetition(重

复)

unnecessary repeating of a word wd7 word Ambiguity(歧义)not clear word meaning/semantic

cc1 notiona

l n/n collocation

(名词/名词)

improper noun(phrase) and

noun(phrase) combination/semantic

cc2 notiona

l n/v collocation

(名词/动词)

improper noun(phrase) and

verb(phrase) combination/semantic

cc3 notiona

l v/n collocation

(动词/名词)

improper verb and noun(phrase)

combination/semantic

cc4 notiona

l a/n collocation

(形容词/名词)

improper adjective and noun(phrase)

combination/semantic

cc5 notiona

l v/ad

collocation(动

词/副词)

improper verb and adverb (or ad/v)

combination/semantic

cc6 notiona ad/a improper adverb and adjective

l

collocation (副词/形容词) combination/semantic

sn1 sentenc e

run-on sentence (不断句) improper addition of clauses/fused sentence

sn2 sentenc e

sentence

fragment (片段) subordinate clause as a sentence/ any phrase as a sentence

sn3

sentenc e dangling modifier (垂悬修饰语) illogical adverbial modification of a clause

sn4

sentenc e illogical comparison (比较不符合逻辑) error in the comparison of words or phrases in a sentence which can not be compared

sn5

sentenc e topic prominence (主题突出)

the co-occurrence of an initial noun phrase and its equivalent(usually a pronoun) in the same sentence sn6 sentenc e

Coordination (并列)

faulty parallelism of clauses (or words/phrases) in a sentence

sn7 sentenc e

Subordination (主从) faulty attachment of a subordinate clause to the main clause

sn8

sentenc e

structural deficiency (结构缺陷)

error in the grammatical construction of a sentence: improper splitting, pattern shifting, confusing structure, etc

sn9

sentenc e Punctuation (标点符号)

overuse, absence, choice, apostrophe, comma splice, etc.

标准化处理后的各种失误频数及其比例

失误类型 st2

st3

st3

st4 st5 总计 百分比(%)

fm1

1928.8 2877.4 2112.6 1826.7 1686.

7 10432.2 17.47 fm2 349.3 448.9 438.9 226.9 328.7 1792.7 3 fm3 1474.4 731.8 405.8 694.1 174.6 3480.7 5.83 vp1 259.4 325.9 498.4 103.4 200.8 1387.9 2.32 vp2 179 139.3 61.2 104.2 22.1 505.8 0.85 vp3 374 524.6 785.2 273.1 327 2283.9 3.82 vp4 140.8 159.1 110.8 63.9 51.6 526.2 0.88 vp5 140 118.7 107.4 89.9 46.7 502.7 0.84 vp6 1165.7 356 311.6 379.8 215.6 2428.7 4.07 vp7 172.7 104.1 98.4 63.9 46.7 485.8 0.81 vp8 27.1 16.3 8.3 25.2 11.5 88.4 0.15 vp9

111.4 274.3 278.5 42.9 86.1 793.2 1.33

np2 24.7 22.4 17.4 19.3 2.5 86.3 0.14 np3 202.1 247.7 249.6 210.9 186 1096.3 1.84 np4 66.8 55.9 26.4 22.7 21.3 193.1 0.32 np5 58.9 98 71.9 60.5 84.4 373.7 0.63 np6 374 654.4 481 358.8 354.1 2222.3 3.72 np7 237.9 107.5 89.3 174.8 54.9 664.4 1.11 np8 35 65.4 47.9 13.4 7.4 169.1 0.28 np9 6.4 41.3 12.4 7.6 5.7 73.4 0.12 pr1 82 236.5 205 89.9 18.9 632.3 1.06 pr2 16.7 78.3 23.1 4.2 0 122.3 0.2 pr3 52.5 54.2 172.7 28.6 60.6 368.6 0.62 pr4 74.8 37 20.7 48.7 10.7 191.9 0.32 pr5 26.3 53.3 14.1 7.6 10.7 112 0.19 pr6 9.5 2.6 5 3.4 0 20.5 0.03 aj1 6.4 18.9 15.7 5 9 55 0.09 aj2 9.5 3.4 9.9 5.9 7.4 36.1 0.06 aj3 38.2 39.6 32.2 43.7 97.5 251.2 0.42 aj4 16.7 2.6 22.3 12.6 5.7 59.9 0.1 aj5 0.8 3.4 7.4 1.7 0 13.3 0.02 ad1 35.8 96.3 39.7 27.7 15.6 215.1 0.36 ad2 42.2 37.8 12.4 9.2 4.9 106.5 0.18 ad3 7.2 12 9.9 1.7 2.5 33.3 0.06 pp1 136.1 98 43 169.7 28.7 475.5 0.8 pp2 25.5 262.3 143.8 37 27.9 496.5 0.83 cj1 27.8 20.6 18.2 21.8 12.3 100.7 0.17 cj2 4 7.7 13.2 5.9 4.9 35.7 0.06 Wd1 43.8 151.3 114.1 25.2 37.7 372.1 0.62 Wd2 324.6 929.6 772.8 226.9 242.6 2496.5 4.18 Wd3 1102 1634.7 1815 757.1 359.8 5668.6 9.49 Wd4 585.6 829.8 443.8 403.3 427 2689.5 4.5 Wd5 410.6 613.1 518.2 265.5 171.3 1978.7 3.31 Wd6 27.1 37 22.3 34.5 29.5 150.4 0.25 Wd7 261.8 430.8 261.2 228.6 209.8 1392.2 2.33 cc1 72.4 65.4 76 23.5 36.1 273.4 0.46 cc2 35 177.1 49.6 6.7 21.3 289.7 0.49 Cc3 168.7 514.2 417.4 75.6 112.3 1288.2 2.16 Cc4 64.5 94.6 134.7 42 39.3 375.1 0.63 Cc5 23.9 40.4 29.8 5 4.1 103.2 0.17 Cc6 17.5 12 6.6 2.5 1.6 40.2 0.07 Sn1 419.3 596.8 576.9 118.5 42.6 1754.1 2.94 Sn2 424.9 389.6 303.3 132.8 76.2 1326.8 2.22 Sn3 10.3 20.6 17.4 2.5 10.7 61.5 0.1 Sn4 17.5 24.9 6.6 20.2 4.9 74.1 0.12

Sn6 84.3 41.3 39.7 41.2 1.6 208.1 0.35 Sn7 49.3 55.9 63.6 23.5 3.3 195.6 0.33 Sn8 1103.6 446.3 862.1 493.2 231.9 3137.1 5.25 Sn9 861.7 573.6 337.2 649.5 322.9 2744.9

4.6 总计 1410

5.2 16160.6 13935.9 8883.4 6633.

8 59718.9

100

按大类区分言语失误排列表

st2 st3 st4 st5 st6

总计 百分比 累积百分比 词形 3752.5 4058.1 2957.3 2747.7 2190 15705.6 26.299 26.299 词汇 2755.5 4626.3 3947.4 1941.1 1477.7 14748 24.696 50.995 句法 2980.4 2163.6 2224.2 1483.9 699 9551.1 15.993 66.988 动词 2570.1 2018.3 2259.8 1146.3 1008.1 9002.6 15.075 82.063 名词 1052.7 1326.1 1024.8 884.8 727 5015.4 8.398 90.461 搭配 382 903.7 714.1 155.3 214.7 2369.8 3.968 94.429 代词 261.8 461.9 440.6 182.4 100.9 1447.6 2.424 96.853 介词 161.6 360.3 186.8 206.7 56.6 972 1.628 98.481 形容词 71.6 67.9 87.5 68.9 119.6 415.5 0.696 99.177 副词 85.2 146.1 62 38.6 23 354.9 0.594 99.771 连词 31.8 28.3 31.4 27.7 17.2 136.4 0.228 99.999 总计 14105.2 16160.6 13935.9 8883.4 6633.8 59718.9 99.999 百分比 0.24 0.27 0.23 0.15 0.11

中国学习者最常见的言语失误 类型 st2 st3 st4 st5 st6 总计 百分比fm1 1928.8 2877.4 2112.6 1826.7 1686.7 10432.2 1wd3 1102 1634.7 1815 757.1 359.8 5668.6 fm3 1474.4 731.8 405.8 694.1 174.6 3480.7 sn8 1103.6 446.3 862.1 493.2 231.9 3137.1 sn9 861.7 573.6 337.2 649.5 322.9 2744.9 wd4 585.6 829.8 443.8 403.3 427 2689.5 wd2 324.6 929.6 772.8 226.9 242.6 2496.5 vp6 1165.7 356 311.6 379.8 215.6 2428.7 vp3 374 524.6 785.2 273.1 327 2283.9 np6 374 654.4 481 358.8 354.1 2222.3 wd5 410.6 613.1 518.2 265.5 171.3 1978.7 fm2 349.3 448.9 438.9 226.9 328.7 1792.7 sn1 419.3 596.8 576.9 118.5 42.6 1754.1

wd7 261.8 430.8 261.2 228.6 209.8 1392.2 vp1 259.4 325.9 498.4 103.4 200.8 1387.9 sn2 424.9 389.6 303.3 132.8 76.2 1326.8 cc3 168.7 514.2 417.4 75.6 112.3 1288.2 np3 202.1 247.7 249.6 210.9 186 1096.3 vp9 111.4 274.3 278.5 42.9 86.1 793.2 np7 237.9 107.5 89.3 174.8 54.9 664.4 pr1 82 236.5 205 89.9 18.9 632.3

从上表可看出,

1.词形的3种失误(拼写、构词、大小写)均在其中,而拼写更

是居榜首,占失误中的17.47%。3种失误合并共占20.57%。

2.词汇失误7种中有5种(替代、缺少、词类、冗余、歧义),

占失误中的23.81%。

3.句法失误9种中有4种(结构缺陷、标点符号、不断句、片段),

占失误中的15.01%。

4.动词词组9种中有4种(时态、主谓不一致、及物性、情态),

占失误中的11.54%

5.名词词组9种中有3种(数、主谓不一致、冠词),占

6.67%。

6.其他失误(动词/名词搭配、代词指称),占3.22%。

中国学习者最常见拼写失误表

频数词频数词频数词频数词

379 MORTALITY 23 THEMSELVES 15 LIMITED 12 WRITING

113 KNOWLEDGE 21 FESTIVAL 15 NOTICE 11 ARTICLE

78 POLLUTION 20 BELIEVE 15 OURSELVES 11 CONTRARY

76 ENVIRONMENT 20 COUNTRY 15 PERSONNEL 11 EXERCISE

69 NOWADAYS 19 ESPECIALLY 15 STUDENTS 11 FAVORITE

68 GOVERNMENT 19 FAMILIAR 14 CALENDAR 11 INSTEAD

56 MODERN 19 REMEMBER 14 CAUGHT 11 MASTER

44 PRACTICE 18 COURSE 14 CENTURY 11 PARENT

44 SOMETHING 18 EXERCISES 14 COMPETITION 11 PRACTISE

41 POLLUTED 18 HASTILY 14 FIRST 11 RESOURCE

37 BEAUTIFUL 18 INDUSTRY 14 FURTHERMORE 11 TRAVEL

36 COUNTRIES 18 OFTEN 14 MAGAZINES 10 CONDITION

36 STUDYING 18 SEVERAL 14 MEDICINE 10 DECREASED

35 CHALLENGE 18 TRADITIONAL 14 UNIVERSITY 10 ENERGY

34 TECHNOLOGY 17 CREATE 13 FINANCIAL 10 HAPPINESS

32 BENEFIT 17 GRAMMAR 13 GREAT 10 INDIVIDUALS

32 EUTHANASIA 17 NECESSARY 13 MOREOVER 10 PURSUE

30 BECAUSE 17 PEOPLE 13 OPPORTUNITY 10 RAISE

28 LANTERNS 17 SATURDAY 13 PRACTICAL 10 SHOULD

28 REALIZE 17 THEORETICAL 13 RECEIVED 10 SUCCESS

27 COLLEGE 17 THOUGHT 13 YOURSELF 10 THEREFORE

26 INTERESTING 16 CONTROL 12 EXPECTANCY 10 TRAVELING

25 COMMODITIES 16 CONVENIENT 12 FACTORIES 10 WASTE

25 LANTERN 16 POPULATION 12 OPPORTUNITIES 10 WHETHER

25 SUDDENLY 16 WILLIAM 12 PRACTICES

24 IMPORTANT 15 BEGINNING 12 TRANSPORTATION

中国学习者词汇失误表

失误类

型St2 St3 St4 St5 St6 总计百分比

Wd1 43.8 151.3 114.1 25.2 37.7 372.1 0.62

Wd2 324.6 929.6 772.8 226.9 242.6 2496.5 4.18

Wd3 1102 1634.7 1815 757.1 359.8 5668.6 9.49

Wd4 585.6 829.8 443.8 403.3 427 2689.5 4.5

Wd5 410.6 613.1 518.2 265.5 171.3 1978.7 3.31

Wd6 27.1 37 22.3 34.5 29.5 150.4 0.25

Wd7 261.8 430.8 261.2 228.6 209.8 1392.2 2.33

BCC语料库使用指南

1 、字处理(包括标点符号) [C]:错字标记,用于标示考生写的不成字的字。用[C]代表错字,在[C]前填写正确的字。 例如:地球[C](“球”是错字)、这[C]。 [B]:别字标记,用于标示把甲字写成乙字的情况。别字包括同音的、不同音而只是形似的、既不同音也不形似但成字的等等。把别字移至[B]中B的后面,并在[B]前填写正确的字。 例如:提[B题]高、考虑[B虎]。 [L]:漏字标记,用于标示作文中应有而没有的字。用[L]表示漏掉的字,并在[L]前填写所漏掉的字。 例如: 后悔[L],表示“悔”在原文中是漏掉的字。 农[L]药,表示“农”在原文中是漏掉的字。 [D]:多字标记,用于标示作文中不应出现而出现的字。把多余的字移至[D]中D的后面。 例如:我的[D的],表示括号中的“的”是多余的字(原文中写了两个“的”)。[F]:繁体字标记,用于标示繁体字。把繁体字移至[F]中F的后面,并在[F]前填写简体字。 例如:记忆[F憶]、单{F單}纯、养{F養}分{F份}。 注意: 1)繁体字标记标示的是使用正确的繁体字,如果该繁体字同时又是别字,则先标繁体字标记,再标别字标记。

例如:俭朴[F樸[B僕]]。 2)繁体字写错了,标为:后[F後[C]]。 [Y]:异体字标记,用于标示异体字。把异体字移至[Y]中Y的后面,并在[Y]前填写简体字。 例如:偏[Y徧]、沉[Y沈]。 [P]:拼音字标记,用于标示以汉语拼音代替汉字的情况。把拼音字移至[P]中P的后面,并在[P]前填写简体字。 例如:缘[Pyúan]分、保护[Phù]。 [#]:无法识别的字的标记,用于标示无法识别的字。每个不可识别的字用一个[#]表示。例如:更[#][#]保存自己的生命,…… [BC]:错误标点标记,用于标示使用错误的标点符号。把错误标点移至[BC]中BC的后面,并在[BC]前填写正确的标点符号。 例如:勤奋、[BC,]刻苦的精神。 [BQ]:空缺标点标记,用于标示应用标点符号而未用的情况。把[BQ]插入空缺标点之处,并在[BQ]中BQ的后面填写所缺的标点符号。 例如:周围的环境很安静[BQ,]生活也非常平凡。 [BD]:多余标点标记,用于标示不应用标点符号而用了的情况。把多余的标点移至[BD]中BD的后面。 例如:我家周围的[BD,]美丽风景。 2、词处理:(包括成语) {CC}:错词标记,用于标示错误的词和成语。包括4种情况: 1)把词的构成成分写错顺序的。

小学英语教育基础英语翻译答案.doc

Unit 15 Hong Kong 1.当游客们看到溪水从山崖上奔腾而下,他们激动地欢呼起来。(cascade) The tourists cheered with excitement when they saw water cascading down the mountainside. 2.多亏了改革政策,小镇一天比一天繁荣。(thrive) Owing to the policy of reform, the small town is thriving day by day. 3.你是否能给我把这个材料从头到尾读一?遍,强调一下要点。(highlight) Could you read through this for me and highlight the important points? 4.有时我纳闷,不知道死记硬背是否有用。(at times) At times I wonder if rote learning is worthwhile. 5.旧中国曾经盛行的迷信正在慢慢消失。(prevail) The superstitions that used to prevail in Old China are disappearing gradually. 6.由于外销的增加,公司成功地完成了销售计划。(thanks to) Thanks to the improvement / increase in export sales, the company has successfully fulfilled its marketing plan. Unit 14(289) 1.遭受水灾地区:的人民急切需要食品,衣服和药品o (be hungry for) The people in die flooded area are hungry for provisions / food, clothes and medicine. 2.他整夜看电视连续剧,难怪他看上去这么累。(no wonder) As he sat up late watching TV all night, (it's) no wonder that he looked so tired 3.如果我是你的话,我不会卷入那些复杂的事情。(involve) If I were you I wouldnl get / be involved in those complicated affairs. 4.她的手艺非常好,做的蛋糕简直是艺术品。(work of art) Her workmanship is so excellent that the cakes she makes are simply works of art.

语料库与语料库建设

语料库和语料库建设 一、什么叫语料库 1、定义 语料库,通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是指按照一定的 语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。 目前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。我们看到,以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设计是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。 语料库不同于电子文档,语料库的建设有特定的研究目的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。 语料库具有以下特征:1、语料库的设计与建设有系统的语言学理论指导,语料库的开发具有明确而又具体的目的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,由此保证基于语料库的语言研究的科学性、客观性。3、语料文本是连续的文本或话语片断,而不是孤立的句子或词汇,可以借以获得语法关系、用法、词语搭配以及语篇信息。4、语料库以当代先进的计算机技术为技术手段,语料库语料通过电子文本形式储存并且是通过计算机处理的,具有资源优势和处理速度优势。5、基于语料库的研究以量化研究为基石,以概率统计为手段,以数据驱动为基本理念。6、语料库既是一种研究方法,又代表着一种新的研究思维。 二、语料库产生的背景及发展历史 对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪50年代中期, 在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛围无疑促进了对语料的重视。1959年夸克(R.Quirk)等人着手进行的“英语用法调查”(Survey of English Usage)通过系统的调查建立了第一个现代英语语料库,在此基础上完成的《现代英语语法》( A Grammar of Contemporary English)和《英语语法大全》(A Comprehensive Grammar of the English Language)对现代英语进行了系统全面的描写,在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。

基于语料库的中国英语学习者knowledge搭配研究

基于语料库的中国英语学习者knowledge搭配研究 【摘要】本文运用语料库方法对中国英语学习者语料库(CLEC)中出现的knowledge一词的搭配进行了研究,对比分析了中国英语学习者与本族语者在使用knowledge一词方面的特点,以及中国不同水平学习者之间的特点。研究结果表明,中国英语学习者在knowledge一词的使用方面存在过度使用搭配词等现象,并以此揭示其搭配规律,对英语词汇教学、翻译教学提供一个全新的研究途径。 【关键词】语料库;词语搭配;CLEC;BNC 0 引言 自从Firth于半个世纪前提出至今,语言学者关于词语搭配的研究一直在不断地发展、深入并取得了显著的成就。研究者试图从不同的角度、使用各不相同的研究方法去探讨和界定词语搭配。学者们使用的术语也不统一。过去的词语搭配研究仅限于学者的自觉,难免带有个人的偏好,具有一定的局限性。而语料库语言学的兴起为词语搭配的研究带来了全新的理念和研究方法。搭配不再是语言学家头脑里的直觉存在,它是成百上千万词容的语料库连续文本(running text )中的语言使用实体,是数据处理的结果显示。1961年,Sinclair开始了第一个基于语料库证据的词语搭配研究项目。此后,基于语料库的搭配研究在语言学界展开。目前,语料库语言学已形成一套研究词语搭配的方法和手段。 1 词语搭配的概念 根据Firth(1957年)对collocation的界定:“You shall know a word by the company it keeps” (“由词之结伴可知其词”)[1],词语搭配是指词与词的结伴使用这样一种语言现象。Firth关于collocation 的观点概括起来大致有四条:第一,collocation是指词与词的结伴使用;第二,collocation是一种意义方式;第三,习惯性词语搭配的各伙伴相互期待和相互预见;第四,类联接(colligation)是高于词语搭配的抽象。Susan Hunston“…here it is sufficient to note that collocation is the statistical tendency of words to co-occur.”(这足以说明词语搭配是具有统计意义的词语共现)[2]。 2 国内关于词语搭配研究的文献综述 中国期刊全文数据库的检索(CNKI)结果显示,1999-2006共发表以词语搭配为题目的论文53 篇。 卫乃兴(2002年)的《基于语料库和语料库驱动的词语搭配研究》是近年来该研究领域的代表作,在学界引起了广泛的关注,对搭配研究产生了积极的影响。该文介绍和讨论了语料库证据支持的词语搭配研究的基本方法和主要原则。作者将基本研究方法分为“基于语料库数据”和“语料库数据驱动”两类。基于数据

哪里有可以免费使用的大型英语语料库资源-外语教学与研究出版社

语料库相关资源 David Lee语料库研究书签 Bookmarks for Corpus-based Linguists (David Lee) https://www.sodocs.net/doc/9217264036.html,.au/~dlee/CBLLinks.htm (https://www.sodocs.net/doc/9217264036.html,/corpora) 常用语料库资源链接汇集(语料天涯) https://www.sodocs.net/doc/9217264036.html,/corpus/ 互动平台 https://www.sodocs.net/doc/9217264036.html,/forum/ 入门读物 专著 梁茂成、李文中、许家金,2010,《语料库应用教程》。北京:外语教学与研究出版社。Hunston, Susan. 2002. Corpora in Applied Linguistics. Cambridge: Cambridge. University Press. (世界图书出版社引进) Kennedy, Graeme. 1998. An Introduction to Corpus Linguistics. London: Longman. (外研社引进) 期刊论文 中国期刊网 EBSCO英文期刊数据库 书店可以买到的语料库相关书籍 Aijmer, K. & B. Altenberg (Eds.). 2004. Advances in Corpus Linguistics. Papers from the 23rd International Conference on English Language Research on Computerized Corpora (ICAME 23). Amsterdam: Rodopi. (世界图书出版社引进) Austermühl, F. 2001. Electronic Tools for Translators《译者的电子工具》. Manchester: St. Jerome Publishing. (外研社引进) Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad & Edward Finegan. 1999. Longman Grammar of Spoken and Written English. Longman Publications Group. (外研社引进) Biber, Douglas, Susan Conrad & Randi Reppen. 1998. Corpus Linguistics. Cambridge: Cambridge University Press. (外研社引进) Connor, U & T. Upton (Eds.). 2004. Applied Corpus Linguistics: A Multidimensional Perspective. Amsterdam: Rodopi. (世界图书出版社引进)

国际儿童口语语料库录写系统的赋码原则初探

国际儿童口语语料库录写系统的赋码原则初探* 王立非1,刘斌2 (1.南京大学, 江苏南京 210093; 2.解放军国际关系学院,江苏南京 210039) 摘要:国际儿童口语语料库是目前世界上最完整的口语语料库之一, 对开展口语语料库研究和语言习得研究具有重要价值,本文探讨该语料库 的录写系统的赋码原则与具体操作问题,对促进我国英语口语语料库的建 立和研究具有借鉴作用和启示意义。 关键词:国际儿童口语语料库;英语口语语料;语料库语言学 中图分类号:文献标识码:文章编号:The CHILDES Corpus: Coding and Operation of the CHAT Tool WANG Lifei1, LIU Bin2 (1. Nanjing University Nanjing, Jiangsu Prov., 210093; 2. PLA International Studies University, Nanjing, Jiangsu Prov., 210039, China) Abstract: This paper describes the basic coding and operating principles of CHAT for the CHILDES talk-bank, a very valuable corpus for studies on spoken English and language acquisition. It aims to promote the development and use of the CHILDES as a reference for constructing the EFL spoken corpus in China. Key words: CHILDES;English spoken corpus;corpus linguistics 1.引言 新世纪的语言学研究已进入计算机时代,基于语料库的研究成果不断涌现,国际儿童口语语料库CHILDES(Child Language Data Exchange System)就是众多语料库中的一员,已有一千项基于这个语料库的研究成果发表。该语料库由美国麦克阿瑟基金会资助,于1984年开始筹建,经过近20年的建设,已成为目前世界上最大的儿童口语语料库。到目前为止,该语料库已收集了包括英语、汉语在内的25种语言。用户可直接从网上免费登录、使用或下载(https://www.sodocs.net/doc/9217264036.html,/CHA T.html)语料。CHILDES语料库由三部分组成,第一部分是儿童英语口语语料库(DATA-BASE),第二部分为文本赋码系统(CHAT),第三部分为语料分析程序(CLAN),均可在网上免费下载。本文探讨该语料库的录写系统的文本赋码原则和操作,目的是对我国建设英语口语语料库提供借鉴与启示。 2.录写赋码系统的途径与原则

基础英语 1000词

A again /??????/ad.又一次;而且a art.一(个) ;每一(个) able / ???●/a.有能力的;出色的 about / ?????/prep.关于;在…周围 above /?????/prep.在…上面;高于 accept /???????/vt.vi.接受;同意 across /??????/prep.横过;在…对面 act /???/vi.行动;见效n.行为 add vt.添加,附加,掺加 addreafraid a.害怕的;担心的 Africa / ??????/n.非洲 after prep.在…以后;次于 afternoon / ???????◆??/n.下午,午后 age n.年龄;时代vt.变老 ago ad.以前 agree /??????/vi.同意;持相同意见 air /??/n.空气;空中;外观 all a.全部的prep.全部 allow /??●??/vt.允许,准许;任 almost / ??●?????/ad.几乎,差不多alone /??●???/a.单独的ad.单独地along /??●??/prep.沿着ad.向前 aloud /??●???/ad.出声地,大声地already / ?●?????/ad.早已,已经also ad.亦,也;而且,还 although / ?●????/conj.尽管,虽然always ad.总是,一直;永远 America n.美洲;美国 American /?????????/a.美洲的n.美国人and conj.和,又,并,则 angry / ?????/a.愤怒的,生气的 animal / ?????●/n.动物,兽a.动物的 another a.再一个的;别的 answer / ?????/vt.回答;响应;适应 any a.什么,一些;任何的 apple n.苹果,苹果树 around /???????/prep.在…周围 arrive /??????/vi.到达;来临;达到 article / ?????●/n.文章;条款;物品 as conj.当…的时候 Asia / ????/n.亚洲 Asian/ ?????/.亚洲的n.亚洲人 aside /??????/ad.在旁边,到旁边 ask vt.问;要求;邀请 asleep /???●???/a.睡着的,睡熟的 at prep.在…里;在…时 Australia / ??????●??/n.澳大利亚 autumn / ?????/n.秋,秋季 away ad.离开,远离;…去 B baby / ?????/n.婴儿;孩子气的人 back /???/ad.在后;回原处;回 bad /???/a.坏的,恶的;严重的 badly / ???●?/ad.坏,差;严重地 bag /???/n.袋,包,钱包,背包 ball /???●/n.球,球状物;舞会 banana /????????/n.香蕉;芭蕉属植物 bank /????/n.银行;库;岩,堤 bar /??????/n.酒吧间;条,杆;栅 base /????/n.基础,底层;基地 basket /???????/n.篮,篓,筐 basketball / ??????????●/n.篮球; 篮球运动 be aux.v.&vi.是,在,做 beautiful / ??◆?????●/a.美的,美丽 的 beauty / ??◆???/n.美,美丽;美人 because conj.由于,因为 become /??????/vi.变成;成为,变得 bed /???/n.床,床位;圃;河床 beer /???/n.啤酒 before prep.在…以前;向… beg [???]vt.&vi.乞求;请求 beggar / ????// /n.乞丐,穷人 begin /??????/vi.开始vt.开始 behind /????????/prep.在…后面 being / ?????/n.存在;生物;生命 belief /???●???/n.信任,相信;信念 believe /???●???/vt.相信;认为 belong /???●??/vi.属于,附属 below /???●??/prep.在…下面(以下) beside /???????/prep.在…旁边 besides /????????/ad.而且prep.除… 之外 best /????/a.最好的;最大的 better / ????/a.较好的ad.更好地 between /????????/prep.在…中间 bicycle / ??????●/n.自行车,脚踏车 big /???/a.大的,巨大的 bike /????/n.自行车vi.骑自行车 bird /????/n.鸟,禽 birthday n.生日,诞生的日期 black /?●??/a.黑色的;黑暗的 blackboard / ?●??????/n.黑板 blind /?●????/a.瞎的;盲目的 blue /?●◆?/a.蓝色的n.蓝色 boat /????/n.小船,艇;渔船 body / ????/n.身体;主体;尸体 book n.书,书籍vt.预定 boss /???/n.老板,上司vt.指挥 both /????/pron.两者(都) box n.箱,盒;包箱 boy n.男孩,少年;家伙 break /?????/vt.打破;损坏;破坏 breakfast / ????????/n.早饭,早餐 bring /????/vt.带来;引出;促使 brother / ?????/n.兄弟;同事,同胞 build /??●?/vt.建筑;建立;创立 building n.建筑物,大楼;建筑 bus n.公共汽车 business n.商业,生意;事务 busy / ????/a.忙的,繁忙的 but conj.但是,可是 buy vt.买,购买vi.买 by prep.在…旁;被,由 C call vt.把…叫做;叫,喊 camel / ????●/n.骆驼 can aux.v.能,会,可能 Canada n.加拿大 cap / ??/n.帽子,便帽;帽状物 car / ??/n.汽车,小汽车,轿车 card / ???/n.卡,卡片,名片 care / ??/vi.关心,介意n.小心 careful / ?????●/a.仔细的;细致的 careless a.粗心的,漫不经心的 carry / ????/vt.携带;运载;传送 case / ???/n.情况;事实;病例 cat / ??/n.猫,猫科,猫皮 catch / ???/vt.捉住;赶上;领会 cause n.原因,理由;事业

如何自建英语语料库

论自建小型学习者语料库的方法及作用 ——以自建中学生英语写作语料库为例 曹鹤 北京市第三十一中 摘要: 大型语料库的出现和发展在研究语言的用法、翻译、教学、教材编写以及词典编撰等方面起着重要作用,但对于处于一线从事基础教育的外语教师而言,针对性和使用性不强。本文以自己建立小型基础英语教学中中学生写作语料库为例介绍了小型学习者语料库建设的可行性、方法和应用,借以提倡广大一线从事基础教育的教师利用高科技所带来的成果,武装和丰富自己,让自己的教学科学化、客观化。 关键词:小型学习者语料库;英语写作;基础教育 自20世纪60年代至今,语料库从萌芽阶段已经发展到广泛应用于语言研究的各个方面,如:词典编撰、语言学研究、教材编写、翻译、语言教学等等。同时,计算机技术的高速发展使语料库(Corpus)在过去的50多年来也得到了长足的发展,突出表现就是大型语料库的出现。大型语料库为语言研究提供了可靠的信息,但正因为其包罗万象、内容泛泛,在辅助基础教学研究等方面缺乏针对性,实用性不强。作者认为广大英语教师可以根据自己的实际需要建设小型学习者语料库,开展有针对性地研究,并将其应用到教学中。本文以建立中学生写作语料库为例介绍建设小型学习者语料库的方法、以及如何使用小型语料库等方面做主要论述,向基础英语教师展示如何运用这一新技术来辅助英语写作教学。 一、语料库简介 建设语料库之前,我们应首先明白什么是语料库。语料库并不复杂,它通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体(杨惠中,2004)。语料库可以帮助人们观察和把握语言事实,分析和研究语言系统的规律。从语料库语言学的发展历程可以看出,语料库的用途主要体现在对语言现象以及语言本质的研究,如语言统计、词典编撰、词汇搭配和自然语言处理等方面(顾曰国,1988)。现在语料库也开始逐渐应用到语言教学研究中。根据邢富坤(2006)的统计,国内基于语料库的教学研究的数量越来越大,将语料库应用于外语教学的趋势也越来越明显。

可以免费使用的大型英语语料库资源

英语语料库#参考 2012-03-02 22:29:26 ■BNC=The British National Corpus英国国家语料库 https://www.sodocs.net/doc/9217264036.html,/(备用) https://www.sodocs.net/doc/9217264036.html,/bnc/ ■ANC = The American National Corpus美国国家语料库 https://www.sodocs.net/doc/9217264036.html,/ ■COCA = Corpus of Contemporary American English 美国当代英语语料库 https://www.sodocs.net/doc/9217264036.html,/ ■COHA = Corpus of Historical American English 美国近当代英语语料库 https://www.sodocs.net/doc/9217264036.html,/coha/ ■BOE=Bank of English 柯林斯英语语料库 https://www.sodocs.net/doc/9217264036.html,/wordbanks/ ■NMC=New Model Corpus 新规范语料库 https://www.sodocs.net/doc/9217264036.html,/ ■ARC=ACL Anthology Reference Corpus (ARC) 文选参考语料库 https://www.sodocs.net/doc/9217264036.html,/auth/preloaded_corpus/aclarc/ske/first_form ■BAWE=British Academic Written Eng Corpus (BAWE) 英国学术书面语语料库 https://www.sodocs.net/doc/9217264036.html,/auth/preloaded_corpus/bawe2/ske/first_form https://www.sodocs.net/doc/9217264036.html,/AcaDepts/ll/app_ling/internal/bawe/sketch_engine_bawe.htm download ■BASE= British Academic Spoken English Corpus (BASE) 英国学术口语语料库 https://www.sodocs.net/doc/9217264036.html,/fac/soc/celte/research/base/ ■SCTS=Scottish Corpus Of Texts and Speech苏格兰口语与书面语语料库 https://www.sodocs.net/doc/9217264036.html,/ ■SCTS=Corpus Of Modern Scottish Writing 当代苏格兰语实库 https://www.sodocs.net/doc/9217264036.html,/cmsw/ Slang https://www.sodocs.net/doc/9217264036.html,/ (American, English, and Urban slang) https://www.sodocs.net/doc/9217264036.html,/slang/ (UK) https://www.sodocs.net/doc/9217264036.html,/ https://www.sodocs.net/doc/9217264036.html,/cybereng/slang/ https://www.sodocs.net/doc/9217264036.html,/ https://www.sodocs.net/doc/9217264036.html,/

CCL语料库与检索系统方案

一关于CCL语料库及其检索系统 (如果时间紧张,可直接跳到最后的举例部分!) 1.1 CCL语料库及其检索系统为纯学术非盈利性的。不得将本系统及其产生的检索结果用于任何商业目的。CCL不承担由此产生的一切后果。 1.2 本语料库仅供语言研究参考之用。语料本身的正确性需要您自己加以核实。 1.3 语料库中所含语料的基本内容信息可以在“高级搜索”页面上,点击相应的链接查看。比如: “作者列表”:列出语料库中所包含的文件的作者 “篇名列表”:列出语料库中所包含的篇目名 “类型列表”:列出语料库中文章的分类信息 “路径列表”:列出语料库中各文件在计算机中存放的目录 “模式列表”:列出语料库中可以查询的模式 1.4 语料库中的中文文本未经分词处理。 1.5 检索系统以汉字为基本单位。 1.6 主要功能特色: ?支持复杂检索表达式(比如不相邻关键字查询,指定距离查询,等等); ?支持对标点符号的查询(比如查询“?”可以检索语料库中所有疑问句); ?支持在“结果集”中继续检索; ?用户可定制查询结果的显示方式(如左右长度,排序等); ?用户可从网页上下载查询结果(text文件); 二关于查询表达式 本节对CCL语料库检索系统目前支持的查询表达式加以说明。 2.1 特殊符号 查询表达式中可以使用的特殊符号包括8个: | $ # + - ~ ! : 这些符号分为四组: Operator1: | Operator2: $ # + - ~ Operaotr3: !

Delimiter: : 符号的含义如下: (一) Operator1: Operator1是二元操作符,它的两边可以出现“基本项”(关于“基本项”的定义见2.2) (1) | 相当于逻辑中的“或”关系。 (二) Operator2:Operator2是二元操作符,它的两边可以出现“简单项”(关于“简单项”的定义见2.3) (2) $ 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数小于或等于Number (3) # 表示它两边的“简单项”出现于同一句中,不考虑前后次序。两个“简单项”之间相隔字数小于或等于Number (4) + 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数刚好等于Number (5) - 表示它左边的“简单项”出现于句子中,并且,在右边相隔Number个字的范围内,-号右边的“简单项”不出现。 (6) ~ 表示它左边的“简单项”出现于句子中,并且,在左边相隔Number个字的范围内,~号右边的“简单项”不出现。 (三)Operator3:Operator3是一元操作符。 (7) ! 表示它后面的“简单项”是本次查询的主关键字符串,显示查询结果时以该“简单项”作为中心来进行定位。 注意: Operator2后面的Number是必须的,不能省略。Number=0表示相 邻,Number=1表示间隔1个单位,其余依此类推。 (四)Delimiter:西文冒号 : 是分隔符 (8) : 跟在 path,author,name,type,pattern 等关键字后面,用于分隔关键字和它们的取值。这样形成的查询式我们称之为“过滤项”(见下面2.5) 注意:上述特殊字符不能作为基本项在语料库中进行检索。path,author等关键字可以作为基本项进行检索。 2.2 基本项 指不包含特殊符号和空格的连续字符串

最常用的英语动词(根据美国语料库整理 word 可打印)

be turn walk wear lie have start win support occur do might offer end accept say show remember hit identify go hear love base determine can play consider produce prepare get run appear eat argue would move buy teach recognize make like wait face indicate know live serve cover wonder will believe die describe lay think hold send catch fail take bring expect draw arrive see happen build choose name come must stay cause present could write fall point answer want provide cut listen compare look sit reach realize miss use stand kill place act find lose remain close state give pay suggest involve discuss tell meet raise increase force work include pass seek check may continue sell deal laugh should set require fight guess call learn report throw study try change decide fill prove ask lead pull represent hang need understand return focus design feel watch explain drop forget become follow hope plan claim leave stop develop push remove put create carry reduce sound mean speak drive note enjoy keep read break enter form let allow thank share establish begin add receive rise visit seem spend join shoot care help grow agree save avoid talk open pick protect imagine

可以免费使用的大型英语语料库资源

可以免费使用的大型英语语料库资源 https://www.sodocs.net/doc/9217264036.html,/time/ http://www.lextutor.ca/concordancers/concord_e.html 常用语料库资源链接汇集(语料天涯) http://202.204.128.82/sweccl/Corpus/ https://www.sodocs.net/doc/9217264036.html,/netprints/Corporalink/Corporalink.htm 1. BNC-World Simple Search ☆☆☆ https://www.sodocs.net/doc/9217264036.html,/lookup.html But no more than 50 hits will be displayed, with a fixed amount of context. 2. Brown, LOB, BNC sampler ☆☆☆ Here are a few links for searching corpora online, including monolingual corpora like Brown, LOB, and BNC sampler and also some parallel English-Chinese corpora. English: https://www.sodocs.net/doc/9217264036.html,/concordance/WWWConcappE.htm English: http://www.lextutor.ca/concordancers/concord_e.html Parallel: https://www.sodocs.net/doc/9217264036.html,/concordance/paralleltexts/ 3. Collins Cobuild Corpus Concordance Sampler☆☆☆☆☆ https://www.sodocs.net/doc/9217264036.html,/Corpus/CorpusSearch.aspx The Collins WordbanksOnline English corpus is composed of 56 million words of contemporary written and spoken text. 4. New BNC interface - VIEW: ☆☆☆☆☆ https://www.sodocs.net/doc/9217264036.html,/ 5. Samples (about 2 million words) from the British National Corpus: both written and spoken ☆☆☆ The Brown Corpus and many others - native, learner... Go to http://www.lextutor.ca/concordancers/concord_e.html 6. MICASE ☆☆☆☆ https://www.sodocs.net/doc/9217264036.html,/m/micase/ There are currently 152 transcripts (totaling 1,848,364 words) available at the site. 7. CLEC online concordancing ☆☆☆☆ https://www.sodocs.net/doc/9217264036.html,/corpus/EngSearchEngine.aspx CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。For an introduction of the corpus, its error tagset and some statistics, see https://www.sodocs.net/doc/9217264036.html,/baseinfo/achievement/Achievement1.htm 8. Business Letter Corpus Online KWIC Concordancer ☆☆☆

语料库常用统计方法

3.5语料库常用统计方法 第3章前几节对语料库应用中的几种主要技术做了介绍。通过语料检索、词表和主题词表的生成,可以得到一定数量的句子、词汇或结构。为能更好说明所得到的结果的真正意义,常常需要对它们加以统计学分析。本章主要介绍语料分析中的一些常用统计方法。 3.5.1 语料库与统计方法 介绍相关统计方法之前,首先需要了解为什么语料库应用中需要运用统计方法。在2.1节讲到文本采集时,我们知道文本或会话构成了最终的语料库样本。这些样本是通过一定的抽样方法获得的。研究中,我们需要描述这些样本的出现和分布情况。此外,我们还经常需要观察不同语言项目之间在一定语境中共同出现(简称共现)的概率;以及观察某个(些)语言项目在不同文本之间出现多少的差异性。这些需要借助统计学知识来加以描写和分析。 理论上说,几乎所有统计方法都可以用于语料库分析。本章只择其中一些常用方法做一介绍。我们更注重相关统计方法的实际应用,不过多探讨其统计学原理。这一章我们主要介绍语料分析中的频数标准化(normalization )、频数差异检验和搭配强度的计算方法。 3.5.2 频数标准化 基本原理 通常语料检索、词表生成结果中都会报告频数(frequency, freq 或raw frequency )。那么某词(如many )在某语料库中出现频数为100次说明什么呢?这个词在另一个语料库中出现频数为105次,是否可以说many 在第二个语料库中更常用呢?显然,不能因为105大于100,就认定many 在第二个语料库中更常用。这里大家很容易想到,两个语料库的大小未必相同。按照通常的思维,我们可以算出many 在两个语料库中的出现百分比,这样就可比了。这种情况下,我们是将many 在两个语料库中的出现频数归到一个共同基数100之上,即每100词中出现多少个many 。这里通过百分比得到的频率即是一种标准化频率。有些文献中标准化频率也称归一频率或标称频率,即基于一个统一基准得出的频率。 实例及操作 频数标准化,首先需要用某个(些)检索项的实际观察频数(原始频数,raw frequency )除以总体频数(通常为文本或语料库的总词数),这样得到每一个单词里会出现该检索项多少次。在频数标准化操作中,我们通常会在此基础上乘以1千(1万、1百万)得到平均每千(万、百万)词的出现频率。即: 1000?=总体频数 观测频数标准化频率(每千词) (注:观测频数即检索词项实际出现的次数;总体频数即语料库的大小或总形符数。) 例如,more 在中国学生的作文里出现251次,在英语母语者语料中出现475次。两个语料库的大小分别为37,655词次和174,676词次。我们可以根据上面的公式很容易计算出251和475对应的标准化频率。另外,我们还可以利用Excel 或SPSS 等工具来计算标准化频率。比如,可以将实际观察频数和语料库大小如图3.5.1输入相应的单元格,然后在C1单元格里输入=(A1/B1)*1000即可得到中国学生每千词使用more 约为6.67次。要得到母语

基础英语词汇

基础英语词汇 1.Make for 朝向 2.Make a fool of….. 出。。。。的洋相 3.Successor 接班人 4.Roll down 滚下来 5.Put things in order 把东西放整齐 6.Affairs of state 国务 7.Money belt 腰包 8.In the first place 原来,第一点 9.Zero in on 把矛头指向 10.Destroyed 失望的 11.Be on the case 负责处理 12.Apparently 看来,似乎 13.Rear-pocket 裤子后面的口袋 14.Shake down 敲诈 15.Mudflow 泥石流 16.Handbook 手册 17.Storekeeper 店主 18.Head for 招致 19.Look on 旁观 20.Look into 考虑 21.Look up 好转

22.Look down upon 瞧不起 23.Look up to 尊敬 24.Employment agency 中介 25.This bag of bones 这把老骨头 26.Get back on one’s feet 身体恢复 27.Forefathers 祖先 28.Infancy 初期 29.Shimmer 发微光,闪烁 30.Congest (v.) 拥挤,布满 31.A pane of glass 一块玻璃 32.Slip 纸条 33.Before long 不久以后 34.Get away with 幸免于难 35.The young master of Ma family 马家小少爷 36.Incorrect 不正确的 37.Throw up one’s hands 束手无策 38.As so often happens 事情往往如此 39.With anger 因为生气 40.Chuckle 暗笑,咯咯地轻声笑 41.Raise the devil 好好闹一下,好好抗议一下 42.Disillusioned 幻想破灭的 43.Doorknob 门把,拉手

相关主题