搜档网
当前位置:搜档网 › 中国英语学习者语料库CLEC(桂诗春杨惠中)

中国英语学习者语料库CLEC(桂诗春杨惠中)

中国英语学习者语料库CLEC(桂诗春杨惠中)
中国英语学习者语料库CLEC(桂诗春杨惠中)

中国英语学习者语料库

CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。其目的就是观察各类学生的英语特征和言语失误的情况,希望通过定量和定性的方法对中国学习者英语作出较为精确的描写,为我国学生的英语教学提供有用的反馈信息。

表1 CLEC语料分布

类型词次

ST2 208088

ST3 209043

ST4 212855

ST5 214510

ST6 226106

总计1070602

言语失误标注原则

1.简单合理,易于系统操作。参与标注的人比较多,分类表过于繁复,就

难于掌握。我们采取两级分类,第一级有11类:词形(fm)、动词短语(vp)、名词短语(np)、代词(pr)、形容词短语(aj)、副词(ad)、介词短语(pp)、连词(cj)、词汇(wd)、搭配(cc)、句子(sn)。每一类里再用数目字细分。如[cc]为词语搭配不当,[cc1]表示名词和名词的搭配,[cc2]表示名词和动词的搭配,[cc3]表示动词和名词的搭配,等等。

2.分类表的类别要适中。过粗容易统一,但信息太少,不利于分析学习者

的失误/过细难以统一,容易把同一种失误归到不同类别。目前我们采取的办法是对常见的失误从细(如vp和np都有9小类),对少见的失误从粗(如cj只有两小类)。现在的分类表有61个失误码,是属于中等规模的分类表。

提供足够的失误信息(失误本身、失误类型和失误发生范围)。例如In the past, people are [vp6, 4-] kind to each other…, 失误用方括号表示,放在失误之后。 [vp6]为vp(动词)第6种(时态)失误,4-为失误发生的范围,-表示失误的位置,4表示失误前有4个词。要联系这4个词,才能判断are这个词用错了。

开放性。容许研究者根据需要对失误类型进行补充或进一步再分出细类。例如[sn8]为句子结构有缺陷,研究者可以对这种失误再分为若干细类来研究。这需要把sn8的失误全部检索出来,然后定出第三级的分类范畴,如sn81,sn82,

等等。

5.对语体或失误的来由暂不作标注,因为这需要标注者较多的主观判断,更

难以统一。

言语失误分类表(总数:61)

词形动词短语名词短语代词

码类型码类型码类型码类型fm1 Spelling vp1 pattern np1 pattern pr1 Reference fm2 word building vp2 set phrase np2 set phrase pr2 anticipatory

it

fm3 capitalization vp3 agreement np3 agreement pr3 Agreement

vp4 finite/non-finite np4 case pr4 Case

vp5 non-finite np5 countability pr5 wh-

vp6 tense np6 number pr6 Indefinite

vp7 voice np7 article

vp8 mood np8 quantifiers

vp9 modal/auxiliary np9 other

determiners

形容词短语副词介词短语连词

码类型码类型码类型码类型

aj1 pattern ad1 order pp1 pattern cj1 pattern

aj2 set phrase ad2 modification pp2 set phrase cj2 set phrase aj3 degree ad3 degree

aj4 -ed/-ing

confusion

aj5 predicative

/attributive

词语搭配句子

码类型码类型码类型

wd1 order cc1 noun/noun sn1 run-on

sentence

wd2 part of speech cc2 noun/verb sn2 sentence

fragment

wd3 substitution cc3 verb/noun sn3 dangling

modifier

wd4 absence cc4 adj/noun sn4 illogical

comparison

wd5 redundancy cc5 verb/adv sn5 topic

prominence

wd6 repetition cc6 adv/adj sn6 Coordination

wd7 ambiguity sn7 Subordination

sn8 structural

deficiency

sn9 Punctuation

标注说明

码分类类别说明

fm1 word Spelling(拼写)spelling, coinage, abbreviation,

apostrophe

fm2 word word building

(构词)derivation, inflection, compounding, plurality (noun), irregularity(verb), 3rd person singular form(verb), syllabification, hyphenation, word division or fusion

fm3 word Capitalization

(大小写)lower initial letter for upper initial letter or vice versa

vp1 vb phr Pattern(及物性

型式)error in transitivity(vi as vt or vice versa), transitive verb pattern/ grammatical(cf Oxford advanced learner’s dictionary of current English edited by A. S. Hornby)

vp2 vb phr set phrase(固定

词组)phrasal verb and verbal phrase: error in form or use

vp3 vb phr Agreement(主谓

一致性)number agreement with its subject (noun or pronoun)

vp4 vb phr finite/non-fini

te(定式)finite verb for non-finite verb or vice versa

vp5 vb phr non-finite(不定

式)infinitive error: form and use/ infinitive for participle or vice versa/ -ed participle for -ing participle or vice versa

vp6 vb phr Tense(时态)error in tense use within a sentence/

the sequence of tenses between

sentences

vp7 vb phr voice (语态)error in the use of voice: active for

passive or vice versa

vp8 vb phr Mood(语气)error in the use of mood: imperative,

subjunctive/ improper structure of

conditional sentences

vp9 vb phr modal/auxiliary misuse of modal/auxiliary verbs/ wrong

(情态)form of modal verb(or auxiliary verb)

and verb combination (e.g tense form,

voice form, etc)

np1 nn phr Pattern(名词型

式)Error in combination with other words/grammatical

np2 nn phr set phrase(固定

词组)omission or replacement of a fixed element that goes after a certain noun

np3 nn phr Agreement(主谓

一致性)number agreement of a noun with its determiner or a word that refers to it

np4 nn phr Case(格)possessive case error: form or use

np5 nn phr Countability(可

数性)uncountable noun used as countable noun

np6 nn phr Number(数)countable noun used with no determiner

or -s/ a or -s with plural noun

np7 nn phr Article(冠词)a/an confusion or definite/indefinite

confusion

np8 nn phr Quantifiers(数

量词)misuse or confusion between many/much, (a) few/(a) little, some/any, etc

np9 nn phr other

determiners(其

他限定词)misuse or confusion of demonstratives, wh- determiners, numerals, etc.

pr1 pron Reference(指称)incorrect/ambiguous pronoun

reference/anaphoric

pr2 pron anticipatory it

(先行it)improper or wrong use of anticipatory it / it replaced by a demonstrative, etc

pr3 pron Agreement(主谓

一致性)number agreement with a noun it refers to

pr4 pron Case(格)case error of any personal pronoun

pr5 pron wh-(wh-代词)misuse or confusion of interrogative,

relative and conjunctive pronouns

pr6 pron Indefinite(不定

式)misuse or confusion of indefinite pronouns such as all/both,

few/little, some/any, either/neither, etc

aj1 adj Pattern(形容词

型式)error in the combination with other words/grammatical

aj2 adj set phrase(固定

词组)error in the idiomatic use of an adjectival phrase/ omission or replacement of a fixed element that goes after a certain adjective

aj3 adj Degree(级)adjective degree error: form and use

aj4 adj -ed/-ing

confusion -ed adjective for -ing adjective or vice versa

(-ed/-ing混淆)

aj5 adj predicative/att

ributive(谓语/

定语)predicative adjective used as attributive adjective

ad1 adv Order(词序)improper adverb placement/wrong

position

ad2 adv Modification(修

饰语)adjective modifier used as verb modifier/ other kinds of confusion

ad3 adv Degree(级)adverb degree error: form and use

pp1 prep Pattern(介词型

式)unacceptable combination with other words/grammatical

pp2 prep set phrase(固定

词组)error in the formation or use of an idiomatic prepositional phrase

cj1 conj Pattern(连词型

式)unacceptable combination with other words/grammatical

cj2 conj set phrase(固定

词组)error in the formation or use of a phrase functioning as a conjunction

wd1 word Order(词序)misplacement of any word other than an

adverb

wd2 word part of speech

(词类)error in part of speech: right root but wrong word class

wd3 word Substitution(替

代)error in word choice: right word class but wrong selection (any part of speech)

wd4 word Absence(缺少)omission of a word(any part of speech)

wd5 word Redundancy(冗

余)oversuppliance of a word(any part of speech)

wd6 word Repetition(重

复)

unnecessary repeating of a word wd7 word Ambiguity(歧义)not clear word meaning/semantic

cc1 notiona

l n/n collocation

(名词/名词)

improper noun(phrase) and

noun(phrase) combination/semantic

cc2 notiona

l n/v collocation

(名词/动词)

improper noun(phrase) and

verb(phrase) combination/semantic

cc3 notiona

l v/n collocation

(动词/名词)

improper verb and noun(phrase)

combination/semantic

cc4 notiona

l a/n collocation

(形容词/名词)

improper adjective and noun(phrase)

combination/semantic

cc5 notiona

l v/ad

collocation(动

词/副词)

improper verb and adverb (or ad/v)

combination/semantic

cc6 notiona

l ad/a

collocation(副

词/形容词)

improper adverb and adjective

combination/semantic

sn1 sentenc e

run-on sentence (不断句) improper addition of clauses/fused sentence

sn2 sentenc e

sentence

fragment (片段) subordinate clause as a sentence/ any phrase as a sentence

sn3

sentenc e dangling modifier (垂悬修饰语) illogical adverbial modification of a clause

sn4

sentenc e illogical comparison (比较不符合逻辑) error in the comparison of words or phrases in a sentence which can not be compared

sn5

sentenc e topic prominence (主题突出)

the co-occurrence of an initial noun phrase and its equivalent(usually a pronoun) in the same sentence sn6 sentenc e

Coordination (并列)

faulty parallelism of clauses (or words/phrases) in a sentence

sn7 sentenc e

Subordination (主从) faulty attachment of a subordinate clause to the main clause

sn8

sentenc e

structural deficiency (结构缺陷)

error in the grammatical construction of a sentence: improper splitting, pattern shifting, confusing structure, etc

sn9

sentenc e Punctuation (标点符号)

overuse, absence, choice, apostrophe, comma splice, etc.

标准化处理后的各种失误频数及其比例

失误类型 st2

st3

st3

st4 st5 总计 百分比(%)

fm1

1928.8 2877.4 2112.6 1826.7 1686.

7 10432.2 17.47 fm2 349.3 448.9 438.9 226.9 328.7 1792.7 3 fm3 1474.4 731.8 405.8 694.1 174.6 3480.7 5.83 vp1 259.4 325.9 498.4 103.4 200.8 1387.9 2.32 vp2 179 139.3 61.2 104.2 22.1 505.8 0.85 vp3 374 524.6 785.2 273.1 327 2283.9 3.82 vp4 140.8 159.1 110.8 63.9 51.6 526.2 0.88 vp5 140 118.7 107.4 89.9 46.7 502.7 0.84 vp6 1165.7 356 311.6 379.8 215.6 2428.7 4.07 vp7 172.7 104.1 98.4 63.9 46.7 485.8 0.81 vp8 27.1 16.3 8.3 25.2 11.5 88.4 0.15 vp9 111.4 274.3 278.5 42.9 86.1 793.2 1.33 np1 46.9 33.5 28.9 16.8 10.7 136.8 0.23 np2

24.7 22.4 17.4 19.3 2.5 86.3 0.14

np3 202.1 247.7 249.6 210.9 186 1096.3 1.84 np4 66.8 55.9 26.4 22.7 21.3 193.1 0.32 np5 58.9 98 71.9 60.5 84.4 373.7 0.63 np6 374 654.4 481 358.8 354.1 2222.3 3.72 np7 237.9 107.5 89.3 174.8 54.9 664.4 1.11 np8 35 65.4 47.9 13.4 7.4 169.1 0.28 np9 6.4 41.3 12.4 7.6 5.7 73.4 0.12 pr1 82 236.5 205 89.9 18.9 632.3 1.06 pr2 16.7 78.3 23.1 4.2 0 122.3 0.2 pr3 52.5 54.2 172.7 28.6 60.6 368.6 0.62 pr4 74.8 37 20.7 48.7 10.7 191.9 0.32 pr5 26.3 53.3 14.1 7.6 10.7 112 0.19 pr6 9.5 2.6 5 3.4 0 20.5 0.03 aj1 6.4 18.9 15.7 5 9 55 0.09 aj2 9.5 3.4 9.9 5.9 7.4 36.1 0.06 aj3 38.2 39.6 32.2 43.7 97.5 251.2 0.42 aj4 16.7 2.6 22.3 12.6 5.7 59.9 0.1 aj5 0.8 3.4 7.4 1.7 0 13.3 0.02 ad1 35.8 96.3 39.7 27.7 15.6 215.1 0.36 ad2 42.2 37.8 12.4 9.2 4.9 106.5 0.18 ad3 7.2 12 9.9 1.7 2.5 33.3 0.06 pp1 136.1 98 43 169.7 28.7 475.5 0.8 pp2 25.5 262.3 143.8 37 27.9 496.5 0.83 cj1 27.8 20.6 18.2 21.8 12.3 100.7 0.17 cj2 4 7.7 13.2 5.9 4.9 35.7 0.06 Wd1 43.8 151.3 114.1 25.2 37.7 372.1 0.62 Wd2 324.6 929.6 772.8 226.9 242.6 2496.5 4.18 Wd3 1102 1634.7 1815 757.1 359.8 5668.6 9.49 Wd4 585.6 829.8 443.8 403.3 427 2689.5 4.5 Wd5 410.6 613.1 518.2 265.5 171.3 1978.7 3.31 Wd6 27.1 37 22.3 34.5 29.5 150.4 0.25 Wd7 261.8 430.8 261.2 228.6 209.8 1392.2 2.33 cc1 72.4 65.4 76 23.5 36.1 273.4 0.46 cc2 35 177.1 49.6 6.7 21.3 289.7 0.49 Cc3 168.7 514.2 417.4 75.6 112.3 1288.2 2.16 Cc4 64.5 94.6 134.7 42 39.3 375.1 0.63 Cc5 23.9 40.4 29.8 5 4.1 103.2 0.17 Cc6 17.5 12 6.6 2.5 1.6 40.2 0.07 Sn1 419.3 596.8 576.9 118.5 42.6 1754.1 2.94 Sn2 424.9 389.6 303.3 132.8 76.2 1326.8 2.22 Sn3 10.3 20.6 17.4 2.5 10.7 61.5 0.1 Sn4 17.5 24.9 6.6 20.2 4.9 74.1 0.12 Sn5 9.5 14.6 17.4 2.5 4.9 48.9 0.08 Sn6 84.3 41.3 39.7 41.2 1.6 208.1 0.35

Sn7 49.3 55.9 63.6 23.5 3.3 195.6 0.33

Sn8 1103.6 446.3 862.1 493.2 231.9 3137.1 5.25 Sn9 861.7 573.6 337.2 649.5 322.9 2744.9

4.6 总计 1410

5.2 16160.6 13935.9 8883.4 6633.

8 59718.9

100

按大类区分言语失误排列表

st2 st3 st4 st5 st6

总计 百分比 累积百分比 词形 3752.5 4058.1 2957.3 2747.7 2190 15705.6 26.299 26.299 词汇 2755.5 4626.3 3947.4 1941.1 1477.7 14748 24.696 50.995 句法 2980.4 2163.6 2224.2 1483.9 699 9551.1 15.993 66.988 动词 2570.1 2018.3 2259.8 1146.3 1008.1 9002.6 15.075 82.063 名词 1052.7 1326.1 1024.8 884.8 727 5015.4 8.398 90.461 搭配 382 903.7 714.1 155.3 214.7 2369.8 3.968 94.429 代词 261.8 461.9 440.6 182.4 100.9 1447.6 2.424 96.853 介词 161.6 360.3 186.8 206.7 56.6 972 1.628 98.481 形容词 71.6 67.9 87.5 68.9 119.6 415.5 0.696 99.177 副词 85.2 146.1 62 38.6 23 354.9 0.594 99.771 连词 31.8 28.3 31.4 27.7 17.2 136.4 0.228 99.999 总计 14105.2 16160.6 13935.9 8883.4 6633.8 59718.9 99.999 百分比 0.24 0.27 0.23 0.15 0.11

中国学习者最常见的言语失误 类型 st2 st3 st4 st5 st6 总计 百分比fm1 1928.8 2877.4 2112.6 1826.7 1686.7 10432.2 1wd3 1102 1634.7 1815 757.1 359.8 5668.6 fm3 1474.4 731.8 405.8 694.1 174.6 3480.7 sn8 1103.6 446.3 862.1 493.2 231.9 3137.1 sn9 861.7 573.6 337.2 649.5 322.9 2744.9 wd4 585.6 829.8 443.8 403.3 427 2689.5 wd2 324.6 929.6 772.8 226.9 242.6 2496.5 vp6 1165.7 356 311.6 379.8 215.6 2428.7 vp3 374 524.6 785.2 273.1 327 2283.9 np6 374 654.4 481 358.8 354.1 2222.3 wd5 410.6 613.1 518.2 265.5 171.3 1978.7 fm2 349.3 448.9 438.9 226.9 328.7 1792.7 sn1 419.3 596.8 576.9 118.5 42.6 1754.1 wd7 261.8 430.8 261.2 228.6 209.8 1392.2 vp1 259.4 325.9 498.4 103.4 200.8 1387.9

sn2 424.9 389.6 303.3 132.8 76.2 1326.8 cc3 168.7 514.2 417.4 75.6 112.3 1288.2 np3 202.1 247.7 249.6 210.9 186 1096.3 vp9 111.4 274.3 278.5 42.9 86.1 793.2 np7 237.9 107.5 89.3 174.8 54.9 664.4 pr1 82 236.5 205 89.9 18.9 632.3

从上表可看出,

1.词形的3种失误(拼写、构词、大小写)均在其中,而拼写更

是居榜首,占失误中的17.47%。3种失误合并共占20.57%。

2.词汇失误7种中有5种(替代、缺少、词类、冗余、歧义),

占失误中的23.81%。

3.句法失误9种中有4种(结构缺陷、标点符号、不断句、片段),

占失误中的15.01%。

4.动词词组9种中有4种(时态、主谓不一致、及物性、情态),

占失误中的11.54%

5.名词词组9种中有3种(数、主谓不一致、冠词),占

6.67%。

6.其他失误(动词/名词搭配、代词指称),占3.22%。

中国学习者最常见拼写失误表

频数词频数词频数词频数词

379 MORTALITY 23 THEMSELVES 15 LIMITED 12 WRITING

113 KNOWLEDGE 21 FESTIVAL 15 NOTICE 11 ARTICLE

78 POLLUTION 20 BELIEVE 15 OURSELVES 11 CONTRARY

76 ENVIRONMENT 20 COUNTRY 15 PERSONNEL 11 EXERCISE

69 NOWADAYS 19 ESPECIALLY 15 STUDENTS 11 FAVORITE

68 GOVERNMENT 19 FAMILIAR 14 CALENDAR 11 INSTEAD

56 MODERN 19 REMEMBER 14 CAUGHT 11 MASTER

44 PRACTICE 18 COURSE 14 CENTURY 11 PARENT

44 SOMETHING 18 EXERCISES 14 COMPETITION 11 PRACTISE

41 POLLUTED 18 HASTILY 14 FIRST 11 RESOURCE

37 BEAUTIFUL 18 INDUSTRY 14 FURTHERMORE 11 TRAVEL

36 COUNTRIES 18 OFTEN 14 MAGAZINES 10 CONDITION

36 STUDYING 18 SEVERAL 14 MEDICINE 10 DECREASED

35 CHALLENGE 18 TRADITIONAL 14 UNIVERSITY 10 ENERGY

34 TECHNOLOGY 17 CREATE 13 FINANCIAL 10 HAPPINESS

32 BENEFIT 17 GRAMMAR 13 GREAT 10 INDIVIDUALS

32 EUTHANASIA 17 NECESSARY 13 MOREOVER 10 PURSUE

30 BECAUSE 17 PEOPLE 13 OPPORTUNITY 10 RAISE

28 LANTERNS 17 SATURDAY 13 PRACTICAL 10 SHOULD

28 REALIZE 17 THEORETICAL 13 RECEIVED 10 SUCCESS

27 COLLEGE 17 THOUGHT 13 YOURSELF 10 THEREFORE

26 INTERESTING 16 CONTROL 12 EXPECTANCY 10 TRAVELING

25 COMMODITIES 16 CONVENIENT 12 FACTORIES 10 WASTE

25 LANTERN 16 POPULATION 12 OPPORTUNITIES 10 WHETHER

25 SUDDENLY 16 WILLIAM 12 PRACTICES

24 IMPORTANT 15 BEGINNING 12 TRANSPORTATION

中国学习者词汇失误表

失误类

型St2 St3 St4 St5 St6 总计百分比

Wd1 43.8 151.3 114.1 25.2 37.7 372.1 0.62

Wd2 324.6 929.6 772.8 226.9 242.6 2496.5 4.18

Wd3 1102 1634.7 1815 757.1 359.8 5668.6 9.49

Wd4 585.6 829.8 443.8 403.3 427 2689.5 4.5

Wd5 410.6 613.1 518.2 265.5 171.3 1978.7 3.31

Wd6 27.1 37 22.3 34.5 29.5 150.4 0.25

Wd7 261.8 430.8 261.2 228.6 209.8 1392.2 2.33

BCC语料库使用指南

1 、字处理(包括标点符号) [C]:错字标记,用于标示考生写的不成字的字。用[C]代表错字,在[C]前填写正确的字。 例如:地球[C](“球”是错字)、这[C]。 [B]:别字标记,用于标示把甲字写成乙字的情况。别字包括同音的、不同音而只是形似的、既不同音也不形似但成字的等等。把别字移至[B]中B的后面,并在[B]前填写正确的字。 例如:提[B题]高、考虑[B虎]。 [L]:漏字标记,用于标示作文中应有而没有的字。用[L]表示漏掉的字,并在[L]前填写所漏掉的字。 例如: 后悔[L],表示“悔”在原文中是漏掉的字。 农[L]药,表示“农”在原文中是漏掉的字。 [D]:多字标记,用于标示作文中不应出现而出现的字。把多余的字移至[D]中D的后面。 例如:我的[D的],表示括号中的“的”是多余的字(原文中写了两个“的”)。[F]:繁体字标记,用于标示繁体字。把繁体字移至[F]中F的后面,并在[F]前填写简体字。 例如:记忆[F憶]、单{F單}纯、养{F養}分{F份}。 注意: 1)繁体字标记标示的是使用正确的繁体字,如果该繁体字同时又是别字,则先标繁体字标记,再标别字标记。

例如:俭朴[F樸[B僕]]。 2)繁体字写错了,标为:后[F後[C]]。 [Y]:异体字标记,用于标示异体字。把异体字移至[Y]中Y的后面,并在[Y]前填写简体字。 例如:偏[Y徧]、沉[Y沈]。 [P]:拼音字标记,用于标示以汉语拼音代替汉字的情况。把拼音字移至[P]中P的后面,并在[P]前填写简体字。 例如:缘[Pyúan]分、保护[Phù]。 [#]:无法识别的字的标记,用于标示无法识别的字。每个不可识别的字用一个[#]表示。例如:更[#][#]保存自己的生命,…… [BC]:错误标点标记,用于标示使用错误的标点符号。把错误标点移至[BC]中BC的后面,并在[BC]前填写正确的标点符号。 例如:勤奋、[BC,]刻苦的精神。 [BQ]:空缺标点标记,用于标示应用标点符号而未用的情况。把[BQ]插入空缺标点之处,并在[BQ]中BQ的后面填写所缺的标点符号。 例如:周围的环境很安静[BQ,]生活也非常平凡。 [BD]:多余标点标记,用于标示不应用标点符号而用了的情况。把多余的标点移至[BD]中BD的后面。 例如:我家周围的[BD,]美丽风景。 2、词处理:(包括成语) {CC}:错词标记,用于标示错误的词和成语。包括4种情况: 1)把词的构成成分写错顺序的。

基于语料库的中国学生英语学习认知特征分析

基于语料库的中国学生英语学习认知特征分析 英语中介词使用频率相当高,也是二语学习者难以把握的词类之一,本文采取以语料库为基础的,以英语空间介词on , over 为例,从语料库CLE中随机选取,抽样分析,对中国学生使用空间介词on , over错误现象进行分析,发现中国学生在以英语作为第二语言的学习过程中的认知 规律。 语料库;空间介词;介词错误 杨卉卉,男,江苏省泰州人,1979年出生,学历本科,职称江苏泰州学院外国语学院讲师,研究方向认知语言学,英语教学。 [] H31 []A []1002-2139(2018)-27--02 一、引言 介词是英语中使用频率较高的词类,语义多样,用法复杂,对于以英语作为第二语言的中国学生来说,介词使用错误在所难免。认知语言学认为,语言来自人们对外部世界的客观体验,对空间的认识成为人们认知世界的开始。本文选择基于语料库研究空间介词on , over使用情况,剖析以空间概念为核心的语言认知体系,得出中国学生英语学习认知特征及规律。语言学是一种以语料库为基础的语言研究方

法,它包括两部分一是标注自然语料库,二是研究利用已经标注的语料。语料库是语料库语言学研究的基础,随着计算机技术展,统计软件能够帮助研究者罗列分类介词错误类型,使研究结果更具有实证性。 二、研究方法 2.1 研究问题 本文通过对语料库CLEC中空间介词on ,over进行检索,并对其的错误进行分析,试图解决如下问题 1.中国EFL学习者对空间介词on ,over的使用错误是否集中在某一特定类别? 2.造成空间介词on ,over的使用错误的原因是什么? 3.中国学生在学习英语的过程中呈现出何种认知特 征? 2.2 语料的选择 本文所涉及的两个空间介词on ,over,从CLEC语料库中进行抽取,语料库为百万词汇容量,使用软件Wordsmith,AntConc提取也可。其中介词on在CLEC及BNC中随机抽样形符(token)分别为308,over在CLEC随机抽样形符(token)分别为151。 2.3 错误标注及分类 CLEC 语料库已将语言错误分类并标注,根据言语失误分类和标注原则(桂诗春&杨慧中,2018),本研究对中国学

自建小型语料库在英语教学中的运用

自建小型语料库在英语教学中的运用 引言:随着语料库语言学近年来的发展,运用电脑语料库进行教学已经成为现代外语教育的新趋势。各种大型语料库(如LOB, BROWN, ELEC)已被广泛用于课堂教学的很多方面,如语料库在语法教学中的应用(何安平,2001;关文玉,2004),语料库在英语精读课中的应用(林丽云,2004)以及语料库在词汇(莫咏仪,2004;邓飞,2004)及写作(胡玉迎,2004)等方面的应用。然而,大型语料库最初的建库目的并非直接用于课堂教学,其语料规模庞大,就语言教学的具体方面而言,难免缺乏针对性,而且,由于价格,市场等原因,个人很难购买到大型语料库及检索软件。因此,在日常教学中,个人教学语料库的建设就显得尤为重要。Ragan(2001)指出小型语料库已成为以课堂为中心的实证教学研究的有力手段。而国内目前对个人教学语料库的研究还相对贫乏,本文将初步探讨自建小型语料库在帮助学生理解课文篇章主题意义方面的作用。 1.自建小型语料库的特征 1.1 针对性强。首先,与大型语料库相比,自建小型语料库规模小,但在内容选择上却比较有针对性,建库者可以根据自己教学及学生自主学习的需要科学的选择合适的语料,从而,使语料能够充分体现学习者的需求,满足不同层次学习者的需要,如目前大多数小学都开设了英语课,但适合这些初学者的语料库却几乎没有。在这种情况下,老师便可以通过因特网搜集儿童英语的材料和儿童感兴趣的话题制成小型语料库,从而是儿童能从开始就学到地道的英语。其次,小型语料库易于突出语言的语域和语体特征,正如Beaugr (2001)所说,依据特定的语域,语篇和话题而建的小型语料库有助于学习者培养语言的体裁,语域,语篇感,深化对语言在具体环境下的涵义的理解。 1.2 实效性强。与大型语料库相比,小型语料库在内容选择上非常灵活,可以避免选择那些语法正确但已经过时的语料,使语料库能跟上语言不断发展变化的步伐,尤其是新闻,杂志等语料更是能把最前沿的语言变体及新词,新句带给学习者。另外,小型语料库标注比较灵活,能满足更多学习者的个性化需求,而且,检索方便快捷,学习者可以在自己的操作过程中去发现目标语的各种语法特征和规律,便于学习者进行自主学习。 2.自建小型语料库促进英语教学的实例 正如Guy(1997)所说,小型语料库有助于学习者通过建构陈述性和程序性知识培养语言使用能力。目前计算机的使用已经相当普遍,所以对中学生灌输有关计算机方面的知识是非常有必要的。下面我们将以the use of computer 一文为例,说明在引导学习者建构该篇课文主题意义及对已有知识进行扩展方面,自建小型语料库能起什么作用。 学习者通过日常接触,对有关计算机方面的基础知识已经有了一定的基本图式,如计算机是一种高科技产品,运用广泛,速度快,因特网,游戏等。然而,若要比较全面的建构出有关计算机的图式,则还需对已有图式进行深入和扩展,如对计算机功能,利弊,历史,前景等方面知识的掌握。为了使学习者能够最大限度熟悉该话题,建构起该话题的心理词库,流利准确的表达该话题的相关知识,我们将利用自建的语料库的词频显现和语境共现功能,为学习者提供大量真实的语料,让学习者在自己观察,分析,概括的基础上归纳出相关图式,建构起该话题的陈述性知识;并通过小组讨论,任务汇报,课堂演示等方法扩展和巩固该话题的图式,从而,实现程序性知识的建构。 2.1 建立相关微型语料库 在大学英语第二册中有一篇the use of computer的课文,主要介绍了计算机的历史及目前计算机在各个行业中的广泛运用。为了向学习者提供更多的相关语料,笔者另外从因特网上搜集了十篇难度和体裁相当的相关文章,通过对无关内容的删减,加工,标注后制成微型

语料库与语料库建设

语料库和语料库建设 一、什么叫语料库 1、定义 语料库,通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是指按照一定的 语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。 目前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。我们看到,以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设计是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。 语料库不同于电子文档,语料库的建设有特定的研究目的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。 语料库具有以下特征:1、语料库的设计与建设有系统的语言学理论指导,语料库的开发具有明确而又具体的目的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,由此保证基于语料库的语言研究的科学性、客观性。3、语料文本是连续的文本或话语片断,而不是孤立的句子或词汇,可以借以获得语法关系、用法、词语搭配以及语篇信息。4、语料库以当代先进的计算机技术为技术手段,语料库语料通过电子文本形式储存并且是通过计算机处理的,具有资源优势和处理速度优势。5、基于语料库的研究以量化研究为基石,以概率统计为手段,以数据驱动为基本理念。6、语料库既是一种研究方法,又代表着一种新的研究思维。 二、语料库产生的背景及发展历史 对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪50年代中期, 在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛围无疑促进了对语料的重视。1959年夸克(R.Quirk)等人着手进行的“英语用法调查”(Survey of English Usage)通过系统的调查建立了第一个现代英语语料库,在此基础上完成的《现代英语语法》( A Grammar of Contemporary English)和《英语语法大全》(A Comprehensive Grammar of the English Language)对现代英语进行了系统全面的描写,在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。

基于语料库的中国英语学习者knowledge搭配研究

基于语料库的中国英语学习者knowledge搭配研究 【摘要】本文运用语料库方法对中国英语学习者语料库(CLEC)中出现的knowledge一词的搭配进行了研究,对比分析了中国英语学习者与本族语者在使用knowledge一词方面的特点,以及中国不同水平学习者之间的特点。研究结果表明,中国英语学习者在knowledge一词的使用方面存在过度使用搭配词等现象,并以此揭示其搭配规律,对英语词汇教学、翻译教学提供一个全新的研究途径。 【关键词】语料库;词语搭配;CLEC;BNC 0 引言 自从Firth于半个世纪前提出至今,语言学者关于词语搭配的研究一直在不断地发展、深入并取得了显著的成就。研究者试图从不同的角度、使用各不相同的研究方法去探讨和界定词语搭配。学者们使用的术语也不统一。过去的词语搭配研究仅限于学者的自觉,难免带有个人的偏好,具有一定的局限性。而语料库语言学的兴起为词语搭配的研究带来了全新的理念和研究方法。搭配不再是语言学家头脑里的直觉存在,它是成百上千万词容的语料库连续文本(running text )中的语言使用实体,是数据处理的结果显示。1961年,Sinclair开始了第一个基于语料库证据的词语搭配研究项目。此后,基于语料库的搭配研究在语言学界展开。目前,语料库语言学已形成一套研究词语搭配的方法和手段。 1 词语搭配的概念 根据Firth(1957年)对collocation的界定:“You shall know a word by the company it keeps” (“由词之结伴可知其词”)[1],词语搭配是指词与词的结伴使用这样一种语言现象。Firth关于collocation 的观点概括起来大致有四条:第一,collocation是指词与词的结伴使用;第二,collocation是一种意义方式;第三,习惯性词语搭配的各伙伴相互期待和相互预见;第四,类联接(colligation)是高于词语搭配的抽象。Susan Hunston“…here it is sufficient to note that collocation is the statistical tendency of words to co-occur.”(这足以说明词语搭配是具有统计意义的词语共现)[2]。 2 国内关于词语搭配研究的文献综述 中国期刊全文数据库的检索(CNKI)结果显示,1999-2006共发表以词语搭配为题目的论文53 篇。 卫乃兴(2002年)的《基于语料库和语料库驱动的词语搭配研究》是近年来该研究领域的代表作,在学界引起了广泛的关注,对搭配研究产生了积极的影响。该文介绍和讨论了语料库证据支持的词语搭配研究的基本方法和主要原则。作者将基本研究方法分为“基于语料库数据”和“语料库数据驱动”两类。基于数据

哪里有可以免费使用的大型英语语料库资源-外语教学与研究出版社

语料库相关资源 David Lee语料库研究书签 Bookmarks for Corpus-based Linguists (David Lee) https://www.sodocs.net/doc/a813310107.html,.au/~dlee/CBLLinks.htm (https://www.sodocs.net/doc/a813310107.html,/corpora) 常用语料库资源链接汇集(语料天涯) https://www.sodocs.net/doc/a813310107.html,/corpus/ 互动平台 https://www.sodocs.net/doc/a813310107.html,/forum/ 入门读物 专著 梁茂成、李文中、许家金,2010,《语料库应用教程》。北京:外语教学与研究出版社。Hunston, Susan. 2002. Corpora in Applied Linguistics. Cambridge: Cambridge. University Press. (世界图书出版社引进) Kennedy, Graeme. 1998. An Introduction to Corpus Linguistics. London: Longman. (外研社引进) 期刊论文 中国期刊网 EBSCO英文期刊数据库 书店可以买到的语料库相关书籍 Aijmer, K. & B. Altenberg (Eds.). 2004. Advances in Corpus Linguistics. Papers from the 23rd International Conference on English Language Research on Computerized Corpora (ICAME 23). Amsterdam: Rodopi. (世界图书出版社引进) Austermühl, F. 2001. Electronic Tools for Translators《译者的电子工具》. Manchester: St. Jerome Publishing. (外研社引进) Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad & Edward Finegan. 1999. Longman Grammar of Spoken and Written English. Longman Publications Group. (外研社引进) Biber, Douglas, Susan Conrad & Randi Reppen. 1998. Corpus Linguistics. Cambridge: Cambridge University Press. (外研社引进) Connor, U & T. Upton (Eds.). 2004. Applied Corpus Linguistics: A Multidimensional Perspective. Amsterdam: Rodopi. (世界图书出版社引进)

如何自建英语语料库

论自建小型学习者语料库的方法及作用 ——以自建中学生英语写作语料库为例 曹鹤 北京市第三十一中 摘要: 大型语料库的出现和发展在研究语言的用法、翻译、教学、教材编写以及词典编撰等方面起着重要作用,但对于处于一线从事基础教育的外语教师而言,针对性和使用性不强。本文以自己建立小型基础英语教学中中学生写作语料库为例介绍了小型学习者语料库建设的可行性、方法和应用,借以提倡广大一线从事基础教育的教师利用高科技所带来的成果,武装和丰富自己,让自己的教学科学化、客观化。 关键词:小型学习者语料库;英语写作;基础教育 自20世纪60年代至今,语料库从萌芽阶段已经发展到广泛应用于语言研究的各个方面,如:词典编撰、语言学研究、教材编写、翻译、语言教学等等。同时,计算机技术的高速发展使语料库(Corpus)在过去的50多年来也得到了长足的发展,突出表现就是大型语料库的出现。大型语料库为语言研究提供了可靠的信息,但正因为其包罗万象、内容泛泛,在辅助基础教学研究等方面缺乏针对性,实用性不强。作者认为广大英语教师可以根据自己的实际需要建设小型学习者语料库,开展有针对性地研究,并将其应用到教学中。本文以建立中学生写作语料库为例介绍建设小型学习者语料库的方法、以及如何使用小型语料库等方面做主要论述,向基础英语教师展示如何运用这一新技术来辅助英语写作教学。 一、语料库简介 建设语料库之前,我们应首先明白什么是语料库。语料库并不复杂,它通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体(杨惠中,2004)。语料库可以帮助人们观察和把握语言事实,分析和研究语言系统的规律。从语料库语言学的发展历程可以看出,语料库的用途主要体现在对语言现象以及语言本质的研究,如语言统计、词典编撰、词汇搭配和自然语言处理等方面(顾曰国,1988)。现在语料库也开始逐渐应用到语言教学研究中。根据邢富坤(2006)的统计,国内基于语料库的教学研究的数量越来越大,将语料库应用于外语教学的趋势也越来越明显。

可以免费使用的大型英语语料库资源

英语语料库#参考 2012-03-02 22:29:26 ■BNC=The British National Corpus英国国家语料库 https://www.sodocs.net/doc/a813310107.html,/(备用) https://www.sodocs.net/doc/a813310107.html,/bnc/ ■ANC = The American National Corpus美国国家语料库 https://www.sodocs.net/doc/a813310107.html,/ ■COCA = Corpus of Contemporary American English 美国当代英语语料库 https://www.sodocs.net/doc/a813310107.html,/ ■COHA = Corpus of Historical American English 美国近当代英语语料库 https://www.sodocs.net/doc/a813310107.html,/coha/ ■BOE=Bank of English 柯林斯英语语料库 https://www.sodocs.net/doc/a813310107.html,/wordbanks/ ■NMC=New Model Corpus 新规范语料库 https://www.sodocs.net/doc/a813310107.html,/ ■ARC=ACL Anthology Reference Corpus (ARC) 文选参考语料库 https://www.sodocs.net/doc/a813310107.html,/auth/preloaded_corpus/aclarc/ske/first_form ■BAWE=British Academic Written Eng Corpus (BAWE) 英国学术书面语语料库 https://www.sodocs.net/doc/a813310107.html,/auth/preloaded_corpus/bawe2/ske/first_form https://www.sodocs.net/doc/a813310107.html,/AcaDepts/ll/app_ling/internal/bawe/sketch_engine_bawe.htm download ■BASE= British Academic Spoken English Corpus (BASE) 英国学术口语语料库 https://www.sodocs.net/doc/a813310107.html,/fac/soc/celte/research/base/ ■SCTS=Scottish Corpus Of Texts and Speech苏格兰口语与书面语语料库 https://www.sodocs.net/doc/a813310107.html,/ ■SCTS=Corpus Of Modern Scottish Writing 当代苏格兰语实库 https://www.sodocs.net/doc/a813310107.html,/cmsw/ Slang https://www.sodocs.net/doc/a813310107.html,/ (American, English, and Urban slang) https://www.sodocs.net/doc/a813310107.html,/slang/ (UK) https://www.sodocs.net/doc/a813310107.html,/ https://www.sodocs.net/doc/a813310107.html,/cybereng/slang/ https://www.sodocs.net/doc/a813310107.html,/ https://www.sodocs.net/doc/a813310107.html,/

最常用的英语动词(根据美国语料库整理 word 可打印)

be turn walk wear lie have start win support occur do might offer end accept say show remember hit identify go hear love base determine can play consider produce prepare get run appear eat argue would move buy teach recognize make like wait face indicate know live serve cover wonder will believe die describe lay think hold send catch fail take bring expect draw arrive see happen build choose name come must stay cause present could write fall point answer want provide cut listen compare look sit reach realize miss use stand kill place act find lose remain close state give pay suggest involve discuss tell meet raise increase force work include pass seek check may continue sell deal laugh should set require fight guess call learn report throw study try change decide fill prove ask lead pull represent hang need understand return focus design feel watch explain drop forget become follow hope plan claim leave stop develop push remove put create carry reduce sound mean speak drive note enjoy keep read break enter form let allow thank share establish begin add receive rise visit seem spend join shoot care help grow agree save avoid talk open pick protect imagine

可以免费使用的大型英语语料库资源

可以免费使用的大型英语语料库资源 https://www.sodocs.net/doc/a813310107.html,/time/ http://www.lextutor.ca/concordancers/concord_e.html 常用语料库资源链接汇集(语料天涯) http://202.204.128.82/sweccl/Corpus/ https://www.sodocs.net/doc/a813310107.html,/netprints/Corporalink/Corporalink.htm 1. BNC-World Simple Search ☆☆☆ https://www.sodocs.net/doc/a813310107.html,/lookup.html But no more than 50 hits will be displayed, with a fixed amount of context. 2. Brown, LOB, BNC sampler ☆☆☆ Here are a few links for searching corpora online, including monolingual corpora like Brown, LOB, and BNC sampler and also some parallel English-Chinese corpora. English: https://www.sodocs.net/doc/a813310107.html,/concordance/WWWConcappE.htm English: http://www.lextutor.ca/concordancers/concord_e.html Parallel: https://www.sodocs.net/doc/a813310107.html,/concordance/paralleltexts/ 3. Collins Cobuild Corpus Concordance Sampler☆☆☆☆☆ https://www.sodocs.net/doc/a813310107.html,/Corpus/CorpusSearch.aspx The Collins WordbanksOnline English corpus is composed of 56 million words of contemporary written and spoken text. 4. New BNC interface - VIEW: ☆☆☆☆☆ https://www.sodocs.net/doc/a813310107.html,/ 5. Samples (about 2 million words) from the British National Corpus: both written and spoken ☆☆☆ The Brown Corpus and many others - native, learner... Go to http://www.lextutor.ca/concordancers/concord_e.html 6. MICASE ☆☆☆☆ https://www.sodocs.net/doc/a813310107.html,/m/micase/ There are currently 152 transcripts (totaling 1,848,364 words) available at the site. 7. CLEC online concordancing ☆☆☆☆ https://www.sodocs.net/doc/a813310107.html,/corpus/EngSearchEngine.aspx CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。For an introduction of the corpus, its error tagset and some statistics, see https://www.sodocs.net/doc/a813310107.html,/baseinfo/achievement/Achievement1.htm 8. Business Letter Corpus Online KWIC Concordancer ☆☆☆

语料库常用统计方法

3.5语料库常用统计方法 第3章前几节对语料库应用中的几种主要技术做了介绍。通过语料检索、词表和主题词表的生成,可以得到一定数量的句子、词汇或结构。为能更好说明所得到的结果的真正意义,常常需要对它们加以统计学分析。本章主要介绍语料分析中的一些常用统计方法。 3.5.1 语料库与统计方法 介绍相关统计方法之前,首先需要了解为什么语料库应用中需要运用统计方法。在2.1节讲到文本采集时,我们知道文本或会话构成了最终的语料库样本。这些样本是通过一定的抽样方法获得的。研究中,我们需要描述这些样本的出现和分布情况。此外,我们还经常需要观察不同语言项目之间在一定语境中共同出现(简称共现)的概率;以及观察某个(些)语言项目在不同文本之间出现多少的差异性。这些需要借助统计学知识来加以描写和分析。 理论上说,几乎所有统计方法都可以用于语料库分析。本章只择其中一些常用方法做一介绍。我们更注重相关统计方法的实际应用,不过多探讨其统计学原理。这一章我们主要介绍语料分析中的频数标准化(normalization )、频数差异检验和搭配强度的计算方法。 3.5.2 频数标准化 基本原理 通常语料检索、词表生成结果中都会报告频数(frequency, freq 或raw frequency )。那么某词(如many )在某语料库中出现频数为100次说明什么呢?这个词在另一个语料库中出现频数为105次,是否可以说many 在第二个语料库中更常用呢?显然,不能因为105大于100,就认定many 在第二个语料库中更常用。这里大家很容易想到,两个语料库的大小未必相同。按照通常的思维,我们可以算出many 在两个语料库中的出现百分比,这样就可比了。这种情况下,我们是将many 在两个语料库中的出现频数归到一个共同基数100之上,即每100词中出现多少个many 。这里通过百分比得到的频率即是一种标准化频率。有些文献中标准化频率也称归一频率或标称频率,即基于一个统一基准得出的频率。 实例及操作 频数标准化,首先需要用某个(些)检索项的实际观察频数(原始频数,raw frequency )除以总体频数(通常为文本或语料库的总词数),这样得到每一个单词里会出现该检索项多少次。在频数标准化操作中,我们通常会在此基础上乘以1千(1万、1百万)得到平均每千(万、百万)词的出现频率。即: 1000?=总体频数 观测频数标准化频率(每千词) (注:观测频数即检索词项实际出现的次数;总体频数即语料库的大小或总形符数。) 例如,more 在中国学生的作文里出现251次,在英语母语者语料中出现475次。两个语料库的大小分别为37,655词次和174,676词次。我们可以根据上面的公式很容易计算出251和475对应的标准化频率。另外,我们还可以利用Excel 或SPSS 等工具来计算标准化频率。比如,可以将实际观察频数和语料库大小如图3.5.1输入相应的单元格,然后在C1单元格里输入=(A1/B1)*1000即可得到中国学生每千词使用more 约为6.67次。要得到母语

中国英语学习者语料库CLEC(桂诗春杨惠中)doc资料

中国英语学习者语料库C L E C(桂诗春杨惠 中)

中国英语学习者语料库 CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。其目的就是观察各类学生的英语特征和言语失误的情况,希望通过定量和定性的方法对中国学习者英语作出较为精确的描写,为我国学生的英语教学提供有用的反馈信息。 言语失误标注原则 1.简单合理,易于系统操作。参与标注的人比较多,分类表过于繁复,就难于掌握。我们采取两级分类,第一级有11类:词形(fm)、动词短语(vp)、名词短语(np)、代词(pr)、形容词短语(aj)、副词(ad)、介词短语(pp)、连词(cj)、词汇(wd)、搭配(cc)、句子(sn)。每一类里再用数目字细分。如[cc]为词语搭配不当,[cc1]表示名词和名词的搭配,[cc2]表示名词和动词的搭配,[cc3]表示动词和名词的搭配,等等。

2.分类表的类别要适中。过粗容易统一,但信息太少,不利于分析学习者的失误/过细难以统一,容易把同一种失误归到不同类别。目前我们采取的办法是对常见的失误从细(如vp和np都有9小类),对少见的失误从粗(如cj只有两小类)。现在的分类表有61个失误码,是属于中等规模的分类表。 提供足够的失误信息(失误本身、失误类型和失误发生范围)。例如In the past, people are [vp6, 4-] kind to each other…, 失误用方括号表示,放在失误之后。 [vp6]为vp(动词)第6种(时态)失误,4-为失误发生的范围,-表示失误的位置,4表示失误前有4个词。要联系这4个词,才能判断are这个词用错了。 开放性。容许研究者根据需要对失误类型进行补充或进一步再分出细类。例如[sn8]为句子结构有缺陷,研究者可以对这种失误再分为若干细类来研究。这需要把sn8的失误全部检索出来,然后定出第三级的分类范畴,如sn81, sn82,等等。 5.对语体或失误的来由暂不作标注,因为这需要标注者较多的主观判断,更难以统一。 言语失误分类表(总数:61)

语料库语言学与中国外语教学_桂诗春

2010年11月November 2010 第33卷第4期Vol.33No.4 现代外语(季刊) Modern Foreign Languages (Quarterly )语料库语言学与中国外语教学 桂诗春 冯志伟杨惠中何安平卫乃兴李文中梁茂成 [编者按] 为推动我国应用语言学研究的新发展,教育部人文社科重点研究基地———广东 外语外贸大学外国语言学及应用语言学研究中心于2010年9月24-25日成功举办了“首届广外应用语言学论坛”,庆贺我国著名语言学家、应用语言学学科的开拓者桂诗春教授八十华诞。期间,举行了题为“语料库语言学与外语教学”的高层论坛,就语料库语言学的现状、发展前景及语料库的建设、共享、应用等展开了互动讨论。以下是根据专家发言,整理后的主要内容。 [中图分类号]H319 [文献标识码]A [文章编号]1003-6105(2010)04-0419-08 语料库语言学的发展前景与资源共享 广东外语外贸大学 桂诗春 1.语料库语言学的发展前景 语料库语言学在外国和国内都发展很快,有的人选择了它作为发展方向,因为它的入门比较容易,上手较快;有的人把语料库语言学作为收集数据的重要手段。但是总的来说,我们的语料库研究还处在比较初级阶段,需要提高。究其原因是很多人把它看成是一种工具或手段,可以运用现有的一些现成的程序和公开的语料库,如Brown ,LOB ,Frown. Flob , BNC ,CLEC ,只要选题得当,就能获得很多量化的数据,从而写出洋洋洒洒的文章来。在计算机和扫描仪的支持下,自行收集一些语言素材,建立一个特定的语料库,也不是什么难事。 我觉得,语料库语言学既是一种工具,但更是一门学科;它是对语言行为进行概率性归纳和概括的一门学科,它本身是跨学科性的,要做语料库语言学研究必须许多方面要有比较雄厚的基础。首先是数学和统计学。Herdan (1960)的一本早期著作,叫做《词次/词型数学》(Type /token Mathematics ),其副标题就是《数理语言学教科书》(A Textbook of Mathematical Linguistics ),当时还是前计算机 时代,但Herdan 觉得有两件语言事实值得我们注意:一是大量语言资料(language in mass ),二是语言排列(language in line ),它们是任何语言运作都不能离开的两个方面。某些语言学研究分支如果考虑到这两个方面,将会从中获益。当时还没有真正的机读语料库, Brown 的语料库在1967年才面世,美国心理 学家John Carroll 根据该语料库以及他后来参与制作500万词的AHI 语料库,所提出的词汇频数对数正态模型(lognormal model )均源于Herdan 所奠定的基础。一直到最近美国Barber 利用计算机对英语语体的各种研究,更是利用了因子分析的统计方法。其次是计算机科学。语料库的发展离不开现代科学技术,其主要表现是个人电脑、扫描仪和大容量硬盘的普及,当初Brown 语料库要动用到大型电脑,而到如今,只需一万元左右就能在家里拥有这些设备,制作出甚至比Brown 还要大的语料库。但是我们往往只注意到硬件部分,而不认识到软件的建设。从事语料库语言学研究的人而不掌握一到两种编成语言,也不可能拓展他们的研究领域,因为他不能根据个人的研究需

国外个主流语料库使用

1. The Complete Lexical Tutor http://www.lextutor.ca/ 参考期刊网上刘玉山,胡志军的介绍。 是一个语料库中心词索引软件(concordancer),加拿大魁北克大学Tom Cobb the University of Quebec at Montreal (UQAM), 开发 三部分:learners, researchers, teachers自我学习,研究,教师命题。 特别是concordance中有13个语料库为检索对象。还可以用来对学生作文中的用词分析。http://www.lextutor.ca/concordancers/concord_e.html 可以同时提供多个语料库的在线搜索,但缺点是每次只能对一个文本加工。 2.BNC 2014年开始,免费获得,通过BYU的申请。 British National Corpus 一亿词,书面语90%,口语10%,共4124篇文本,从1980到1993年的语料 英国牛津出版社﹑朗文出版公司﹑钱伯斯—哈洛普出版公司﹑牛津大学计算机服务中心、兰卡斯特大学英语计算机中心以及大英图书馆等联合开发建立的大型语料库 共有七类 口语spoken,小说fiction,流行杂志magazine,报纸newspaper和学术期刊academic 还有COCA分类中没有的两类non-academic, miscellaneous second edition BNC World (2001) third edition BNC XML Edition (2007) extracts from regional and national newspapers, specialist periodicals and journals for all ages and interests, academic books and popular fiction, published and unpublished letters and memoranda, school and university essays, among many other kinds of text 通常可进入的那个链接是BYU, 美国杨百翰大学提供的 BYU大学在2012年对语料库经行了重新附码,用的CLAWS 7 3. COCA: the corpus of contemporary American English Brigham Young University 美国犹他州杨百翰大学 Doctor Mark Davies 3.6亿,1990-2007年间,美国国内各种语料 口语spoken,小说fiction,流行杂志magazine,报纸newspaper和学术期刊academic共五类语料来源 且持续更新中,每年以2000万词递增,目前到1990-2012,共4.5亿词 Display:显示方式,compare选项可以用来比较两个词的搭配区别,排列方式选择relevance 相关度 标记了语料的时间,便于研究语言历时与共时的变化 教学中相关用法 查找同义词,如[=scold].[V*]表示查找所有scold的同义词

英语语料库汇总

*145 GUIDED WRITING I The following sentences are in scrambled order. Some of them have to be combined by the connectives listed below. Combine those sentences first. Then arrange all the sentences in good orders so that they go together to form a paragraph. 1. So, in my opinion, among the four necessities, transportation is the big problem for every one of us at present. 2. According to the Chinese, there are four necessities. The four necessities are requisites for human life. The four necessities are clothing, food, shelter and transportation. 3. Shelter used to be a problem. It has become much improved in the meantime. 4. The elderly desire that there are fewer bicycles ,fewer motorcycles, and fewer cars bustling about. 5. The first three are more or less resolved. 6. The big problem now seems to be transportation for the government officials. The big problem now seems to be transportation for the people. 7. The executives hope for something. Their cars are not held up in the traffic for too long. 8. Indeed, we are now at a stage. We are comfortably clothed. The attention of some of us has even turned to the fashion of our clothing. 9. The working people wish for buses. The buses are not too crowed. 10.As for food, we have edibles galore to satisfy our appetite. 11.The cyclists yearn for something. The cyclists are not pushed about by motor cyclists. Connectives: which, where, but, that, both…and… II Put the following sentences into the proper order to form a note making arrangements. Work in groups of two or three. 5 August,20___ Dear Dr. Baker, Thank you. A car will be sent to bring you to the university at 1:30 p.m. As previously arranged, you are invited to deliver a lecture on humanism at our university sometime in August. Your lecture is now scheduled for Monday ,14 August, at the University Auditorium.

相关主题