搜档网
当前位置:搜档网 › 语料库语言学简史

语料库语言学简史

语料库语言学简史
语料库语言学简史

语料库语言学简史

语料库语言学及语料库方法的作用在今天已不容忽视,但是语料库语言学的发展却经历了一段长期曲折的过程。以1957年Chomsky《句法结构》的发表为界,此前的语料库研究被语言学界广泛称为“早期的语料库语言学”;从上世纪50年代至80年代语料库语言学进入低谷;从80年代开始,语料库语言学迎来了它的“复苏期”。

1 早期的语料库语言学

利用真实语言资料进行研究,是词汇学家和语法学家的优良传统。早在1747年英语词典编纂的鼻祖Samuel Johnson就发表了Plan of an English Dictionary,将前人收集资料的最好方法作了总结,他所编的英语词典含15万条以上的引证说明,可见其所收集的资料库已相当可观。Oxford English Dictionary于1928年完成,所用的引证达400多万条,卡片1100多万张,还专门出版了中古英语手稿与文章350册,供编写OED时参考。Webster’s New International Dictionary第二版的编写参照了100多万条引证,第三版于1961年付印时,新旧引证共达1000多万条。英语语法大师Jesperson在编写《英语语法大全》(1909-1949)时,所使用的卡片数目多达30至40万张。(王建新,1998:52)

20世纪40年代,美国的语言学家Boas在研究美洲印第安语言时就使用了语料库的方法(corpus-based methodology),后来的结构主义语言学家更是如此。只不过当时还没有出现一个专门叫“语料库语言学”的词汇而已。下面是早期语料库语言学的一些主要研究领域:

1.1 语言习得研究

19世纪70年代,语言学家就系统地对幼儿语言习得进行了研究。这些研究都基于父母对幼儿话语及时记录的日记材料。即使在现代,基于原始语料的语言习得研究也没有停止(Ingram,1978)。

在以日记材料为语料的研究风行过后(通常认为从1876年至1926年),语言习得的研究主要表现为下面两种方式:(1)以大量的、不同年龄段的儿童为语言素材的来源(informant),进行语言发展和成熟的研究;(2)以少量的儿童为语言素材的来源,长期跟踪记录他们使用的语言而进行的历时研究(McEnery,Wilson,2001:3)。

1.2 拼写规范研究

德国语言学家Kading以德语大型语料(1100万词次)为基础,对德语各字母在文本中的出现频率以及字母串进行了研究。

1.3 语言教学研究

20世纪20年代,由于大量移民涌向北美,以及各英属殖民地对英语教学的需要,有好几项工程都把寻找英语语言中最常用的词汇作为了主要的研究目标(Fries 和Traver,1940;Bongers,1947)。1921年,Thorndike借助于语料库发布了英语词汇的使用频率研究报告。此项研究对后来美国以及世界其他地区的英语教学都产生了巨大的影响。1944年,Thorndike进一步完善了他的早期研究,发表了“教师3万词汇手册”(The Teacher’s Wordbook of 30,000 words)。此时,Thorndike 研究所依据的语料库已达到1800万词次。

出于教学目的而对英语词汇进行基于语料库研究最著名的例子是Michael West的“实用英语词汇表”(General Service List of English Words)。此项成果发表于1953年,它对当时英语书面语中最常用的2,000个词汇进行了具体的描述,

不仅有不同词义的使用频率情况,还有用法说明。

这些早期研究都得出这样的结论:不论在何种语体和文本中,都是为数不多的常用词占据了文本的大部分篇幅。

1.4 对比语言学研究

在对比语言学领域,语料库方法很早前就得到了应用。最有代表性的例子是Eaton在1940年对荷兰语、法语、德语和意大利语词义频率的对比研究。即使从今天的眼光看,这也是一项非常复杂的工作。

1.5 句法学和语义学研究

对词义频率的研究也出现在单语研究领域,Lorge的研究(1949)是这方面的例子之一。与此同时,句法研究也使用了语料库的方法。Fries (1952)以电话听抄稿为语料,对英语语法进行了系统分析,这项研究是早期描写语法的一个代表。

从以上的诸多例证可以看出,语料库方法在语言研究领域很早以前就已经被使用。但语料库语言学的发展却有一个明显的低谷时期,它从20世纪50年代开始,以Chomsky的著作《句法结构》的发表为标志。因为Chomsky在书中对语料库方法的批评,语料库方法和语料库语言学曾一度极度低落,几近死亡。

2 语料库语言学的低谷时期

Chomsky的转换生成语法在很短的时间内就在语言学界引起了一场革命,经验主义(empiricism)也很快被理性主义(rationalism)所取代。Chomsky对语料库方法进行了直截了当的批评,他认为语料库永远也不会成为语言研究的有用工具,因为语言研究的最终目的是寻找语言能力(language competence)而不是语言行为(language performance)。语言能力是所有说本族语的人可以理解并且说出从来没有听过的句子的能力,这是人人都共有的、内在的语言知识。语言行为只是语言能力在特定场合下的表现,它是支离破碎的,不能反映语言能力的实际情况。语言行为受到很多外部事物的影响,说话人是否饮了酒、说话时的环境等都会对语言行为产生影响。因此,Chomsky认为语料库充其量只是对语言能力的外在表现——语言行为即言语的一种收集,这些数据无法指导语言学家获得语言能力的模型。

除此之外,Chomsky还对语料库语言学进行了进一步的批评。早期的语料库语言学的做法会使人得出这样的两条假设:(1)自然语言中的句子是有限的;(2)自然语言中的句子是可以被收集的。Chomsky批评说:很显然自然语言的句子是无限的,任何人都有说出或写出从未听过的句子的能力。此外,英语的句子结构具有循环性(recursiveness)的特点,例如“The man that the cat saw that the dog ate that the man knew that the…”。循环性进一步证明了自然语言中句子的无限性。

退一步说,假设自然语言中的句子是有限的,语料库方法会不会是研究语言的最佳方法呢?Chomsky也给出了否定的答案。他认为语料库方法是多余的,语言学家只要通过内省(introspection)就可以进入思维活动的中心,从而对语言能力进行考察。很多时候,语言直觉(intuition)比在语料库中搜索更节省时间。像下面这样的句子是不大可能在语料库中出现的,如果不是靠内省,我们该如何将合乎语法的句子和不合乎语法的句子区分开来。

He shines Smith books.

我们怎么知道这是一个不合乎语法的句子呢?在语料库中,我们会找到大量与此结构类似的句子。

He gives Smith books.

He lends Smith books.

He owes Smith books.

语料库在这里毫无用处,反而给人以假象:这样的句子是可以接受的。

另外,歧义结构也只有通过内省才能够得到甄别,光靠对句子结构的观察是不够的。例如:

Tom and Ruby sat down---he read a book of medicine.

Tom and Ruby sat down---he ate a can of dog food.

如果遇到像这样的句子,我们只有知道Ruby是一条狗的名字才能够理解句义。

除Chomsky之外,早期的语料库语言学也受到其他学者的质疑,这些质疑主要表现在语料库方法的“可信性”方面。Abercrombie(1965)称语料库语言学的研究方法为“伪方法”(pseudo-procedures)。在计算机技术还很落后的年代,这样的批评并不是空穴来风。谁能想象语言学家们如何对大型语料库(如Kading的1100万字次的语料库)进行检索?在没有检索软件支持的情况下,光凭人工是无法实现科学、全面的检索和统计的。因此可以说,由于计算机技术的限制,早期语料库语言学进行研究的基本条件在当时并不具备。

虽然Chomsky的批评对语料库语言学是致命的一击,但基于语料库的研究却从来没有停止过。例如在语音学领域,对实际话语的记录材料一直是语言学研究的主要素材。同样的情况也出现在语言习得的研究方面。从20世纪50年代至80年代,语料库语言学领域仍有下面这些显著的成就:

1959年,英国伦敦大学的Randolph Quirk提出建立“英语用法调查”语料库(Survey of English Usage,SEU)。不久以后,Nelson Francis和Henry Kucera在美国Brown大学召集了一些“语料库的有识之士”,开始了最终被称为Brown语料库的建设工作。Brown语料库是世界上第一个根据系统性原则采集样本的标准语料库,规模为100万词次,主要代表了当代美国英语。在当时的学术环境下,他们的研究是逆流而动的。尽管受到许多语言学家的质疑,但他们对语料库的信心却没有动摇。上述语料库的最终成功也极大地鼓舞了同行专家,为建设更大规模的语料库积累了经验。

1970年,在英国Lancaster大学的著名语言学家Geoffrey Leech的倡议下,LOB 语料库开始建设。这项工作由挪威Oslo大学的Stig Johansson主持,完成于1978年,最后安装在挪威Bergen大学挪威人文科学计算中心。LOB语料库与Brown 语料库相当,主要代表当代英国英语。

20世纪60年代初,Randolph Quirk主持的英语用法调查课题组曾收集了2000个小时的谈话和广播等口语素材,并整理成了书面材料。这些材料后来由瑞典Lund 大学J. Svartvik教授主持全面录入计算机,这就是1975年建成的London-Lund英语口语语料库。

除了上面的语料库研究之外,这一时期还有“美国传统中级英语语料库”(The American Heritage Intermediate Corpus)和“康乃尔语料库”(The Cornell Corpus)等。

尽管在20世纪80年代之前,语料库的研究一天也没有真正停止,但应该承认这个阶段语料库语言学的发展步履维艰,语料库的建设也由于受诸多负面因素的影响而进展缓慢。另外,这个阶段的语料库普遍规模小、加工深度低,除了对原始语料的简单处理外,对语料本身没有做什么分析和标注。因此,这一时期的语料库被后人称为第一代语料库。

3.语料库语言学的复苏

语料库语言学的复苏始于20世纪80年代①。第一代电子语料库有其时代局限性,Brown语料库和LOB语料库可以在计算机上使用,但所含的语料均为书面语,缺乏口语与手稿。London-Lund语料库没有与之比较的美国英语口语语料库,

无法做共时比较研究。到了20世纪80年代,计算机软、硬件都有了较大的技术进步,语料库的建设进入了高速发展期,第二代千万级以及亿级以上的语料库从此拉开了建设的序幕。第二代语料库规模大,语料有一定的加工深度,在词类的自动赋码(tagging)、句法分析(parsing)和检索软件的开发等方面都有巨大的进步。1991年8 月在斯德哥尔摩召开的诺贝尔语料库语言学研究会(Nobel Symposium on Corpus Linguistics)上,语言学家们在认真总结和评估了语料库语言学取得的研究成果之后得出了以下结论:语料语言学“正在成为一个独立的学科”,而且发展前景相当广阔(Svartvik,1992)。第二代语料库主要有:

(1)COBUILD语料库

COBUILD语料库也常被称为Birmingham语料库,它是英国柯林斯出版社和伯明翰大学的一个合作项目,由伯明翰大学的John Sinclair教授负责,它最初的名称为“The Birmingham Collection of English Texts,BCET”(伯明翰英语文汇)。COBUILD语料库最初的建设目的是为词典编纂服务,基于该语料库的词典编纂始于1980年,现已有多部词典问世,它们就是著名的COBUILD系列词典。

据Renouf(1987),COBUILD语料库的主体部分选择了“满足学习者、教师和其他使用者需要的英语语言,同时也要对当代英语的研究者具有一定价值”。为了达到这一目标,语料在结构和内容上都有具体的要求。要求包括:口语语料必须占25%的比例;语料应该主要是通用语言材料而不是技术语言材料;语料应该反映自1960年以来的英语用法;语料应该有广泛的代表性,英国英语语料占70%,美国英语语料20%,其他英语地域变体10%。

对于COBUILD语料库来说,书面语部分的选择经过了精心的策划。文章必须来源于通俗的、知名的和被广泛阅读的作品,75%的内容由男作家写作,25%的内容选择女作家的作品。口语语料来源于各种录音的文字记录(transcript),有广播稿、访谈和大学课堂的讲稿等等。到1982年8月,COBUILD语料库的规模就达到了7300万词次。

COBUILD语料库具有很多创新,这不仅表现在它超大规模的语料,将商业目的和语料库的研究和开发进行联姻,并成功产出了一系列的词典、语法著作和教材也是该语料库的独到之处。

(2)朗文语料库网络(The Longman Corpus Network)

朗文语料库网络由三大语料库组成,它们是朗文-兰开斯特英语语料库(Longman/Lancaster English Language Corpus,LLELC)、朗文口语语料库(Longman Spoken Corpus,LSC)和朗文学习者英语语料库(Longman Corpus of Learners’English,LCLE)。该语料库的主要目标之一是编纂英语学习词典,为外国人学习英语服务。

80年代后期,Della Summers与Leech合作,开始着手编制朗文-兰开斯特英语语料库。该语料库将20世纪以来英国英语、美国英语和世界上其他主要的英语变体作为选材范围,涉及书面英语和口头英语两种形式,是一个覆盖范围很广的语料库,计划库容为5000万词次。为确保语料库的代表性,语料的收集分为两个部分:一半语料选自1900年以来出版的供成人阅读的书籍,选材遵循严格的科学抽样原则;另一半语料是根据事先确定好的比例选自范围很广的、影响很大的文本。58%的语料属于信息类,42%的语料是想象类文本。语料选自2000多本书籍、期刊和末公开发表的材料。

(3)英国国家语料库(BNC,British National Corpus)

英国国家语料库的编制从1991年开始到1995年结束,历时5年,由英国政府出资,牛津大学出版社、朗文出版社、钱伯斯出版社、牛津大学计算中心、兰

开斯特大学和大英图书馆共同参与。该语料库收集了当代英国英语4124篇文本,其中书面语占90%,口语占10%,共计一亿词次。BNC书面语文本分为两大类:信息类部分(informative)和想象类部分(imaginative),其中前者占书面语语料的75%,后者占25%。信息类部分的语料是选自1975年以来的英国英语;想象类部分的语料选自1960以后的英语书面语。BNC的书面语选材范围很广,据Kennedy (2000:51),BNC语料中的60%来自书籍、25%来自期刊、5%来自各种出版的小册子、还有5%选自未出版的信函、会议纪要等,其余的来源于剧本和演讲稿。同时,书面语料的选择还充分考虑了语体的差异,在BNC中,语体分为3个层次:“上层文体”的文学体、“中间文体”的一般文体和“下层文体”的非正式体,比例分别为30%、45%和35%。下表是“信息类”文章的具体选材情况:占信息类语料的百分比占书面语总语料的百分比

自然科学、纯科学应用科学社会、团体国际事务商务财经艺术思想、信仰与宗教休闲6.813.313.320.013.313.36.713.3 51010151010510

总计100.0 75

(Kennedy,2000: 51)

BNC的口语部分共有1000万词次,主要有两个来源:其一,在英国12个地区采集的课堂讲座、新闻报道、商务会谈、访谈、布道、政治演说,甚至还有夜总会的交谈、电台的电话参与节目等;其二,124名自愿者为BNC计划提供了2000个小时的录音,这些录音稿是口语的第二大来源。

BNC的文章都进行了标注(annotated),编码系统采用了SGML(Standard Generalized Markup Language)。兰开斯特大学开发的CLAWS系统为BNC进行了词类的自动赋码(word-class tagging)。

(4)国际英语语料库(ICE,International Corpus of English)

早在1988年,SEU的主持人Sidney Greenhaum就提议建设包含世界各主要英语变体的大型语料库并进行各变体间的对比研究,这项工程于1990年正式启动。

ICE共有23个子语料库组成,每个子语料库都是100万词次。参照Brown语料库和LOB语料库,各子语料库都由500篇文章组成,每篇文章都是2000字左右。

在建设各子语料库的同时,ICE工程还开发了相应的软件,用于语料检索和分析的软件不仅适用于ICE各子语料库,也同样适用于其他一些语料库,比如20世纪60年代的SEU。利用这样的软件既可以进行各英语变体间的共时对比研究,同时还可以进行英语语言的历时研究。

(5)英语文库(BOE,Bank of English)

由于语料库只是话语全域的一个缩影,所以语言学家们认为向已建成的语料库中不断添加新内容非常必要,Sinclair称这类语料库为监控语料库(monitor corpus)。

20世纪90年代末,Sinclair宣布COBUILD语料库已被扩展为一个规模宏大的语言数据库——英语文库。到2002年,该语料库已经达到了4.5亿词次,是目前已知的规模最大的语料库。BOE的语料包括口语和书面语,材料主要来源于英国(2.25亿)和美国(0.65亿)。此外,还有3000多万词次的语料选自澳大利亚的报纸。BOE的语料来源有16个渠道,其中9个是英美报刊,2个是广播,2个是英美的各种书籍,还有2个是英美的各种小册子,最后一种语料是非正式的谈话稿。由于BOE是监控语料库,所以其规模还在日益增大。

基于COCA语料库和CCL语料库的翻译教学探索

基于COCA语料库和CCL语料库的翻译教学探索 南京大学 常熟理工学院 朱晓敏 提 要:从上世纪80年代起,作为一种研究语言现象和语言本质的新模式,语料库语言学取得了令人鼓舞的成就。语料库已经渗透到语言研究的各个领域。翻译研究领域里使用的语料库多为双语平行语料库和翻译语料库。单语语料库与翻译研究相结合,尤其是与翻译教学相结合,是一个鲜有人探索的未知领域。在课堂上使用可以免费获取的美国杨百翰大学的英语单语语料库(CO CA语料库)和北京大学汉语语言学研究中心的汉语单语语料库(CCL语料库)能改变传统翻译教学模式,为翻译教学的改革提供借鉴。 关键词:语料库,COCA,CCL,翻译教学 一、引言 作为一个新的研究领域,一种全新的探究语言现象和语言本质的方法,语料库语言学在上世纪80年代得到了蓬勃的发展。韩礼德(1993:24)曾指出: 语料库语言学将数据收集与理论论述有机地结合在一起,使我们对语言的理解发生了质的变化(转引自王克非,2004:4)。 根据收集语料的语言种类,语料库可分为单语语料库(monolingual corpus)和双语/多语语料库(bilingual/multilingual corpora)。前者仅采用一种语言的语料,通过大量收集本族语者的语言实例而建成;而后者是由两种或两种以上的语言文本构成的语料库,它可以有对应/平行的、类比的和翻译的三种形式。 单语语料库的研发历史要追溯到上世纪50年代末,由夸克等人在伦敦大学率先建立起现代意义上的语料库,即 英语用法调查(Survey of English Usage)。到目前为止,比较大型的英语单语语料库有BNC英国国家语料库,CBECobuild 英语库,Brow n布朗语料库,美国杨百翰大学M ark Davis教授主持的美国当代英语语料库(Corpus of Contemporary American English,简称COCA语料库),汉语的有北京大学汉语语言学研究中心的CCL汉语语料库等。国际上双语/多语语料库在近十几年得到了长足的发展,比较早的双语语料库有20世纪90年代早期建立的英语-挪威语双语平行语料库和英语-意大利语双语平行语料库,以及后来建立的英语和德语,英语和法语等双语语料库。国内目前规模最大的汉英双语语料库是北京外国语大学中国外语教育研究中心近年建成的达3000万字词的通用汉英语料库。国际上多语语料库有T he ECI M ultilingual Corpus多语种语料库(The ECI M ultilingual Corpus,简称IECI/M CI),近1亿字,包含了欧洲主要的语言及土耳其语、日语,俄语、汉语和马来语。而国内目前多语语料库的研究开发还是空白。 二、传统翻译教学面临的挑战与改革的出路 我国传统的翻译教学模式,即 理论讲解!举例验证!结论巩固,曾经为我国培养了一批优秀的翻译人才,他们中的很多人仍然是现在翻译行业的主力军。他们拥有扎实的中、英文功底和孜孜不倦的翻译探索精神。进入21世纪以来,信息技术迅猛发展,知识更新速度加快,传统的翻译教学难以适应新的挑战。从学生对课堂教学的反馈和专业八级考试中翻译部分的得分来看,传统翻译教学存在以下三个方面的问题:首先,翻译教学观念比较陈旧,课堂教学以教师讲述为主,学生听记为辅。学生只记得了抽象的翻译技巧,其实际的翻译能力并没有得到发展。其次,讲授的内容受教材限制,例句少且多为人造语境,学生感觉枯燥,难以提高学生的翻译能力。最后,课堂信息输入量小。 粉笔+黑板+教材+课后翻译练习的单一的教学方法导致课堂容量小,节奏缓慢。要改变以上现状,就要 实现翻译课程结构的科学化,扩大课堂教学的信息输入量,让学生在教师提 本文是南京大学2009年博士研究生科研创新基金课题 基于网络的英汉/汉英平行语料对自动获取(项目编号2010CW02)的前期研究成果。感谢匿名评审人员的宝贵意见。文责自负。

国内语料库翻译学20年述评_1993_2012_宋庆伟(DOC)

上海翻译Shanghai Journal of Translators2013 No. 2 国内语料库翻译学20年述评( 1993—2012) 宋庆伟匡华吴建平( 厦门大学外文学院,福建厦门 361005;济南大学外国语学院,山东济南 250022) ( 山东大学外国语学院,山东济南250061) ( 厦门大学外文学院,福建厦门361005) [摘要]本文以中国知网( CNKI) 1993-2012年外语核心期刊中关于语料库翻译学的学术论文为样本,从翻译语言特征、译者风格和应用研究等六个方面对国内近20年语料库翻译学的发展历史进行钩沉,梳理其主要研究脉络和现状,总结语料库翻译学研究的成就、问题与趋势,以期能为该领域研究提供全景式的概况。作者认为,当前研究还存在诸如研究内容与视角比较狭窄,跨学科性研究不足,定量研究层次不高和语料库( 特别是口译语料库) 建设和研究相对滞后等问 题,亟待有针对性的改进与完善。 [关键词]语料库翻译学; 翻译共性; 译者风格; 口译 [中图分类号]H059 [文献标识码] A [文章编号]1672-9358( 2013) 02-0025-06 1 引言到翻译研究当中,使语料库翻译研究迅速发展,逐步 近几年,语料库翻译学随着语料库语言学和描成为描述翻译研究中的一种新范式( Laviosa,1998: 写翻译理论的发展和融合迅速成长起来。从发展历474; 2002: 22)。基于语料库的研究为翻译学提供程来看,她还非常年轻,从1993年Mona Baker发表了新的方法和思路,现在学界形成的共识是利用语语料库翻译学的开山之作《语料库语言学与翻译研料库进行翻译研究是一种不可或缺且可靠的手段。究: 启示和应用》至2012年,刚刚走过了短短的20 从一定程度上来讲,语料库翻译学即语料库语言学年。国内语料库翻译研究几乎与国外同步,肇始于和描写性翻译研究的相加,二者的结合可以说是相1993 年,代表作为杨惠中《语料库语言学与机器翻得益彰,在当今翻译研究注重描写和实证的趋势下,译》一文。如今,国内语料库翻译研究已初具规模,语料库翻译学应运而生。语料库翻译学以翻译本体在翻译共性、译者风格和语料库建设等诸方面都取为研究对象,从大规模翻译文本或翻译语言整体入得了可喜的进步,Tymoczko( 1998: 652) 曾大胆预言手,采用语内对比与语际对比相结合的模式,对翻译基于语料库的翻译研究将是翻译研究的重中之重。现象进行描写和解释,探索翻译的本质。( 王克非、近20年,特别是近几年涌现出一大批语料库翻译学黄立波,2008: 9-14) 的专著和论文,国家社科基金和教育部人文社科基 金对该领域的研究也进行了倾斜。鉴于此,笔者认 3 数据采集 为极有必要对其发展脉络进行梳理和分析,以期为近几年,国内基于语料库的翻译研究发展迅速,今后的研究提供借鉴和参考。本文以中国知网研究的深度和广度也不断拓展,发表文章数量逐年( CNKI) 近20年来外语核心期刊中收录的有关语料增加。为了更好地说明这种趋势,笔者统计了近20 库翻译学的学术论文为基础,借以梳理其研究现状、年( 1993-2012) 中国知网收录的外语核心期刊中关分析成就和问题并展望发展趋势。于语料库翻译学的文章,该统计涉及2012-2013年 版CSSCI外语类来源期刊( 包括扩展版) 共15种,2 语料库翻译学基本原理收集有关文章共97篇,具体数据如下表所示: Mona Baker( 1993)开创性地把语料库方法应用 [基金项目]本文是上海市科委课题“英汉双语平行句对应语料库建设”( 编号: 08dz1501100) 的阶段性成果。论文在写作过程中,得到秦洪武 教授的悉心指点,谨致谢忱! [收稿日期]2013-02-20 [作者简介]宋庆伟,厦门大学博士生,济南大学外国语学院讲师,研究方向: 语料库翻译学、双语词典编纂与翻译; 匡华,山东大学外 国语学院讲师,研究方向: 语料库语言学与英语教学; 吴建平,厦门大学外文学院教授,博士生导师,研究方向: 翻译学与双语词典学。

基于双语平行语料库的翻译教学

基于双语平行语料库的翻译教学 翻译是英语专业高年级学生一门非常重要的课程。传统的翻译教学以教师讲解为中心,以翻译教材为学习载体,学生在上完课之后很难具备一定水平的翻译能力。针对于此,我们把双语平行语料库及相应的检索功能引入到翻译教学当中,以提高翻译教学质量,提升学生的翻译能力。 标签:双语平行语料库;翻译;教学 双语平行语料库是指使用两种语言撰写相互间具有翻译关系的文本的集合平台,与普通的词典相比,这种翻译方法更加准确、便利、快捷,更新速度快,可以提供大量真实的双语对译语料以供学习者查询。 何安平指出,将语料库引入翻译教学,会改变传统的翻译教学模式,使学生可以开展各种学习活动,比如互动式学习、开放式学习和分析归类型学习,这一系列学习可以激发学生的好奇心、求知欲,帮助学生塑造的批判精神和反思精神,为培养学生的创新思维提供了条件。 本文例句所使用的双语平行语料库是指北京外国语大学通用双语平行语料库。 1.基于双语平行语料库的词汇翻译 曾有人提出,平行语料库最典型的应用范围之一是双语词汇教学。无论是英译汉还是汉译英,在很多时候英汉两种语言不存在一一对应的词汇,一词多义的现象很普遍,这就意味着这个词有多种译文;而且,在某些特定的语境中,有的词被赋予固定的意思,这又是新的译文。北京外国语大学王克非教授以汉语“克服”一词为例,在北京外国语大学通用汉语双语平行语料库中检索,发现24处“克服”一词中,有15处翻译为overcome。在学生学习完这24个例子后,他们就会明白,在以后的翻译中,不是所有的“克服”都用overcome翻译,在其他情况下使用cope with,fight down,get rid of 等会更加贴切。 学习者可以借助双语平行语料库的真实语境平台,找到单词在不同语境下的地道翻译,既丰富了词汇量,快速准确地译出对应语,同时可增强语感,提升双语翻译能力。 2.基于双语平行语料库的句式翻译 有时候,学生会感觉无论是英语还是汉语,其中一些句式很难理解,至于翻译更是无从下手。在这种情况下,双语平行语料库为学生们提供了大量的特殊句式翻译例句。我们以英文中“it is said that”为例。这是英语中常用的句式,很多学生张口就翻译为“据说”,好像也没有人怀疑过;包括我本人在接触双语平行语料库之前,见到it is said that也随口就翻译为“据说”。但是,笔者通过双语平行语

语料库语言学的发展

语料库语言学的发展 语料库顾名思义就是放语言材料的仓库。现在人们谈起语料库,不言而喻是指存放在计算机里的原始文本或经过加工后带有语言学信息标注的语料文本。现在世界上已经有了不少规模较大的语料库,有些是国家级的,有些由大学和词典出版商联合建设。另外,由于个人微机的迅猛发展和存贮数据的硬盘造价持续下降,研究者个人也开始建立适合于自己研究的小型语料库。 语料库语言学(英文corpus linguistics)这个术语有两层主要含义。一是利用语料库对语言的某个方面进行研究,即“语料库语言学”不是一个新学科的名称,而仅仅反映了一个新的研究手段。二是依据语料库所反映出来的语言事实对现行语言学理论进行批判,提出新的观点或理论。只有在这个意义上“语料库语言学”才是一个新学科的名称。从现有文献来看,属于后一类的研究还是极个别的。所以,严格地说,现在不能把语料库语言学跟语言学的分支, 如社会语言学、心理语言学、语用学等相提并论。 近年来,随着我国经济的发展,科研经费的增加,汉语语料库的建设得到了开展。1999 年我院把建立汉语语料库列为院重大课题。目前语言所正在构建三个大规模的语料库: 现场即席话语语料库,主要方言口语库和现代汉语文本语料库。在世界范围内,我国的语料库建设在规模上还赶不上欧洲的一些发达国家,特别是英国。然而,在语料库语言学的研究上,以及语料库的实际运用上,我国已经进入世界前沿的行列。 20 世纪语言研究的总特点可以用四个字概括──高度抽象。最近几十年来,语言研究的高度抽象倾向已经失去主导地位。这主要缘于两个方面的因素: 一是计算机技术,特别是基于计算机处理的多媒体技术的飞速发展;二是社会语言学、语用学、会话分析、人类语言学、计算语言学、人机对话研究、语音识别与合成等研究取得令人瞩目的成就。先前难以抓住并进行有效处理的五花八门的实际语料,现在可以对其进行大规模地的、自动的或人机配合的处理。比如个人发音特征,先前认为这跟语言学毫无关系,现在成了侦破语音学的重要内容。侦破语音学家首先建立个人发音特征语料库,这个语料库可以用来鉴别嫌疑犯。概言之,当今的语言研究由先前的高度抽象逐步走向最具体的语言的实际活动,其中

浅析语料库对于翻译研究的意义

浅析语料库对于翻译研究的意义 【摘要】基于语料库的翻译研究在当今已进入一个全新模式,多种语料库被开发应用在人工翻译和机器翻译等实践领域当中。本文对语料库的概念以及某些种类语料库在翻译活动中具体实用情况做出分析,揭示语料库对于翻译研究的意义。 【关键词】语料库;翻译;双语语料库;平行/对应语料库 An Analysis on the Significance of Corpus to Translating Research CHEN Dan (Eastern Liaoning University,Dandong Liaoning 118000,China) 【Abstract】Translating research based on corpus has stepped into a new mode today,and many kinds of corpora are developed and applied in practical fields of manual translation and machine translation. The thesis analyzes the concept corpus and the application of some corpora in translating,which exemplify the significance of corpus to translating research. 【Key words】Corpus;Translating;bilingual corpus;Parallel corpus “语料库”的英语单词corpus来源于拉丁语,意思是body,有“全集”的含义,即“语料的集合”。有的学者认为语料库是基于形式和目的的存储于电子数据库中的文本集合,是描述自然发生语言的集合;也有人认为它是按照明确的语言学标准选择并排序的语言运用材料的汇集,旨在用作语言的样本。国内语料库学者杨惠中对语料库的定义做了较为详细的界定。他指出,“语料库是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片段而建成的具有一定容量的大型电子文库”。 语料库所收集的语料是真实、自然的语言。不同于普通的文本数据库,它的设计和建设是以系统的理论语言学原则为依据,并且具有明确的目的性。语料库的结构严格依照既定程序设定,以一定研究目的为基础,按学科或语篇类型分类存储。语料库中的语料必须符合科学的语言研究,语料可以随机抽取或按统计学方法采集。 语料库的类型和分类标准很多。按用途分,语料库可分为通用语料库(general corpus)和专用语料库(specialized corpus);按语料选取时间,语料库可分为历时语料库(diachronic corpus)和共时语料库(synchronic corpus);按不同结构,语料库可分为平衡语料库(balanced corpus)和自然随机结构语料库(random structure corpus);按语料库的性质,语料库可分为原始语料库(raw corpus)和标注语料库(annotated corpus);按语言种类,语料库可分为单语语料库

语料库翻译学研究内容

研讨五语料库翻译学 1. 什么是语料库翻译学? 2. 语料库翻译学的理论基础? 3. 语料库翻译学的研究内容? 4. 什么是翻译共性? 根据研究课题的来源,语料库翻译学的研究领域分为三类。 第一类源自传统译学研究,包括基于语料库的文学翻译、翻译史、翻译教学、翻译实践、机器翻译和口译等领域的研究。 基于语料库的文学翻译研究以文学翻译作品的文本分析为基础,研究文学翻译理论与实践的相关课题。这些课题具体为: 1) 意象和人物形象的再现与变形,2) 文学风格的再现与重构,3) 文学翻译的创造性,4) 译者风格,5) 文学作品空白和未定性的翻译,6) 文化负载词的翻译,7) 误译和漏译研究。 基于语料库的翻译史研究利用历时性平行语料库对名家译作进行文本分析,揭示翻译家在翻译策略应用、翻译风格和翻译语言等方面所表现出的个性特征及其所遵循的翻译规范。目前,翻译史研究大多将翻译家的观点或言论视为客观现实,满足于翻译事实的罗列,对于翻译规范和历史语境关注不够。事实上,翻译家的所做与所言往往不一致,翻译家所言并不能反映其翻译作品的特征。此外,翻译是一种特殊的社会文化行为,受特定规范的制约。这些规范因时代或文化的差异而不同。利用语料库分析翻译文本的具体特征,归纳不同历史时期的翻译规范,可以阐明翻译家的所作所为,还原历史的真实面貌。另外,该领域的研究还通过提取语料库的篇头信息,对于具体某一历史时期的翻译活动进行客观描述。这些信息包括出版商、出版时间、作品主题、译者姓名和性别等内容。应当指出,语料库翻译学与翻译史均强调对研究对象进行客观描写,重视还原语境方法( contextualization) 的应用。这些共性为语料库在翻译史研究中的应用提供了作为空间。 以上研究均属语料库翻译学理论层面的研究,而基于语料库的翻译教学、翻译实践和机器翻译研究都是应用层面的研究。前者侧重于探讨语料库在翻译评估、翻译教材编写和翻译教学模式中的应用,后者主要关注双语词汇和句式之间的对应关系、翻译策略和方法的应用等问题。基于语料库的机器翻译研究是指利用语料库的核心技术,建设具有海量信息的知识库,以满足机助翻译或自动翻译的需求。 基于语料库的口译研究侧重于分析口译语料词汇、句法和语篇等层面的特征,研究口译语言特征、口译规范、口译策略和方法等。该领域的研究是综合性研究,既有理论层面的探讨,也有实践层面的分析。 第二类研究领域源自描写性译学研究,涵盖翻译共性、翻译规范和批评译学等领域的研究。 翻译共性是指由于翻译过程而形成的翻译文本所具有的区别于原创文本的特征,与源语和目的语之间差异无关,具体表现为显化、隐化、简化和范化等。翻译规范是“译者在具体时间或社会文化环境中所做出的规律性或习惯性选择”。“翻译规范是关于翻译作品和翻译过程正确性的规范,体现了具体某一社会或历史时期关于翻译的价值观和行为原则”。翻译规

语料库语言学简史

语料库语言学简史 语料库语言学及语料库方法的作用在今天已不容忽视,但是语料库语言学的发展却经历了一段长期曲折的过程。以1957年Chomsky《句法结构》的发表为界,此前的语料库研究被语言学界广泛称为“早期的语料库语言学”;从上世纪50年代至80年代语料库语言学进入低谷;从80年代开始,语料库语言学迎来了它的“复苏期”。 1 早期的语料库语言学 利用真实语言资料进行研究,是词汇学家和语法学家的优良传统。早在1747年英语词典编纂的鼻祖Samuel Johnson就发表了Plan of an English Dictionary,将前人收集资料的最好方法作了总结,他所编的英语词典含15万条以上的引证说明,可见其所收集的资料库已相当可观。Oxford English Dictionary于1928年完成,所用的引证达400多万条,卡片1100多万张,还专门出版了中古英语手稿与文章350册,供编写OED时参考。Webster’s New International Dictionary第二版的编写参照了100多万条引证,第三版于1961年付印时,新旧引证共达1000多万条。英语语法大师Jesperson在编写《英语语法大全》(1909-1949)时,所使用的卡片数目多达30至40万张。(王建新,1998:52) 20世纪40年代,美国的语言学家Boas在研究美洲印第安语言时就使用了语料库的方法(corpus-based methodology),后来的结构主义语言学家更是如此。只不过当时还没有出现一个专门叫“语料库语言学”的词汇而已。下面是早期语料库语言学的一些主要研究领域: 1.1 语言习得研究 19世纪70年代,语言学家就系统地对幼儿语言习得进行了研究。这些研究都基于父母对幼儿话语及时记录的日记材料。即使在现代,基于原始语料的语言习得研究也没有停止(Ingram,1978)。 在以日记材料为语料的研究风行过后(通常认为从1876年至1926年),语言习得的研究主要表现为下面两种方式:(1)以大量的、不同年龄段的儿童为语言素材的来源(informant),进行语言发展和成熟的研究;(2)以少量的儿童为语言素材的来源,长期跟踪记录他们使用的语言而进行的历时研究(McEnery,Wilson,2001:3)。 1.2 拼写规范研究 德国语言学家Kading以德语大型语料(1100万词次)为基础,对德语各字母在文本中的出现频率以及字母串进行了研究。 1.3 语言教学研究 20世纪20年代,由于大量移民涌向北美,以及各英属殖民地对英语教学的需要,有好几项工程都把寻找英语语言中最常用的词汇作为了主要的研究目标(Fries 和Traver,1940;Bongers,1947)。1921年,Thorndike借助于语料库发布了英语词汇的使用频率研究报告。此项研究对后来美国以及世界其他地区的英语教学都产生了巨大的影响。1944年,Thorndike进一步完善了他的早期研究,发表了“教师3万词汇手册”(The Teacher’s Wordbook of 30,000 words)。此时,Thorndike 研究所依据的语料库已达到1800万词次。 出于教学目的而对英语词汇进行基于语料库研究最著名的例子是Michael West的“实用英语词汇表”(General Service List of English Words)。此项成果发表于1953年,它对当时英语书面语中最常用的2,000个词汇进行了具体的描述,

语料库常用统计方法

3.5语料库常用统计方法 第3章前几节对语料库应用中的几种主要技术做了介绍。通过语料检索、词表和主题词表的生成,可以得到一定数量的句子、词汇或结构。为能更好说明所得到的结果的真正意义,常常需要对它们加以统计学分析。本章主要介绍语料分析中的一些常用统计方法。 3.5.1 语料库与统计方法 介绍相关统计方法之前,首先需要了解为什么语料库应用中需要运用统计方法。在2.1节讲到文本采集时,我们知道文本或会话构成了最终的语料库样本。这些样本是通过一定的抽样方法获得的。研究中,我们需要描述这些样本的出现和分布情况。此外,我们还经常需要观察不同语言项目之间在一定语境中共同出现(简称共现)的概率;以及观察某个(些)语言项目在不同文本之间出现多少的差异性。这些需要借助统计学知识来加以描写和分析。 理论上说,几乎所有统计方法都可以用于语料库分析。本章只择其中一些常用方法做一介绍。我们更注重相关统计方法的实际应用,不过多探讨其统计学原理。这一章我们主要介绍语料分析中的频数标准化(normalization )、频数差异检验和搭配强度的计算方法。 3.5.2 频数标准化 基本原理 通常语料检索、词表生成结果中都会报告频数(frequency, freq 或raw frequency )。那么某词(如many )在某语料库中出现频数为100次说明什么呢?这个词在另一个语料库中出现频数为105次,是否可以说many 在第二个语料库中更常用呢?显然,不能因为105大于100,就认定many 在第二个语料库中更常用。这里大家很容易想到,两个语料库的大小未必相同。按照通常的思维,我们可以算出many 在两个语料库中的出现百分比,这样就可比了。这种情况下,我们是将many 在两个语料库中的出现频数归到一个共同基数100之上,即每100词中出现多少个many 。这里通过百分比得到的频率即是一种标准化频率。有些文献中标准化频率也称归一频率或标称频率,即基于一个统一基准得出的频率。 实例及操作 频数标准化,首先需要用某个(些)检索项的实际观察频数(原始频数,raw frequency )除以总体频数(通常为文本或语料库的总词数),这样得到每一个单词里会出现该检索项多少次。在频数标准化操作中,我们通常会在此基础上乘以1千(1万、1百万)得到平均每千(万、百万)词的出现频率。即: 1000?=总体频数 观测频数标准化频率(每千词) (注:观测频数即检索词项实际出现的次数;总体频数即语料库的大小或总形符数。) 例如,more 在中国学生的作文里出现251次,在英语母语者语料中出现475次。两个语料库的大小分别为37,655词次和174,676词次。我们可以根据上面的公式很容易计算出251和475对应的标准化频率。另外,我们还可以利用Excel 或SPSS 等工具来计算标准化频率。比如,可以将实际观察频数和语料库大小如图3.5.1输入相应的单元格,然后在C1单元格里输入=(A1/B1)*1000即可得到中国学生每千词使用more 约为6.67次。要得到母语

语料库常用术语

语料库常用术语 Type 类符 Tokens 形符 例如“I see a cat and a dog”类符6个,形符7个 Type/token ratio =TTR TTR 是衡量文本中词汇密度的常用方法,可以辅助说明文本的词汇难度。但是,文本中有大量功能词出现,文本每增加一个词,形符就会增加一个,但类符却未必随之增加。这样文本越长,功能词重复次数越多,TTR会越低。因此用TTR衡量词汇密度不合理,于是,出现了标准化类符/形符比,即STTR。例如,计算每个文本1000词的TTR,均值处理,得出STTR。Frequency(频率) 例如每百万词、十万词中,某单词出现次数。常常将某个单词在两个语料库中出现的频率参照两个语料库的容量,用卡方检验或对数似然率进行对比,来确定两个库中该单词的使用是否有差异。 Wordlist词表 根据单词或词组在语篇中出现的频率大小而排列形成的列表。 Ranks Lemma词目,词元 比如go是lemma,对应各种屈折变化形式(inflections),go,goes,went,going,gone共5种屈折变化形式。在分析语言时,需要将它们全部归到go名下,这个过程叫词形还原。Keywords关键词、主题词positive keywords 正关键词negative keywords 负关键词 Concordance 索引(KWIC 语境中的关键词key words in context) 运用索引软件在语料库中查询某词或短语的使用实例,然后将所有符合条件的语言使用实例及其语境以清单的形式列出。通过前后语境,可以分析“collocation词汇搭配”“colligation 类连接、语法搭配”“semantic preference语义倾向”“semantic prosody语义韵”Collocation词汇搭配 搭配强度MI,T-score ,Z-score Colligation类连接、语法搭配 semantic prosody语义韵 词汇的语义韵大体可分为积极语义韵、中性语义韵、消极语义韵。 POS tagging 词性赋码 Regular expression regex 正则表达式

可以免费使用的大型英语语料库资源

英语语料库#参考 2012-03-02 22:29:26 ■BNC=The British National Corpus英国国家语料库 https://www.sodocs.net/doc/4d13019920.html,/(备用) https://www.sodocs.net/doc/4d13019920.html,/bnc/ ■ANC = The American National Corpus美国国家语料库 https://www.sodocs.net/doc/4d13019920.html,/ ■COCA = Corpus of Contemporary American English 美国当代英语语料库 https://www.sodocs.net/doc/4d13019920.html,/ ■COHA = Corpus of Historical American English 美国近当代英语语料库 https://www.sodocs.net/doc/4d13019920.html,/coha/ ■BOE=Bank of English 柯林斯英语语料库 https://www.sodocs.net/doc/4d13019920.html,/wordbanks/ ■NMC=New Model Corpus 新规范语料库 https://www.sodocs.net/doc/4d13019920.html,/ ■ARC=ACL Anthology Reference Corpus (ARC) 文选参考语料库 https://www.sodocs.net/doc/4d13019920.html,/auth/preloaded_corpus/aclarc/ske/first_form ■BAWE=British Academic Written Eng Corpus (BAWE) 英国学术书面语语料库 https://www.sodocs.net/doc/4d13019920.html,/auth/preloaded_corpus/bawe2/ske/first_form https://www.sodocs.net/doc/4d13019920.html,/AcaDepts/ll/app_ling/internal/bawe/sketch_engine_bawe.htm download ■BASE= British Academic Spoken English Corpus (BASE) 英国学术口语语料库 https://www.sodocs.net/doc/4d13019920.html,/fac/soc/celte/research/base/ ■SCTS=Scottish Corpus Of Texts and Speech苏格兰口语与书面语语料库 https://www.sodocs.net/doc/4d13019920.html,/ ■SCTS=Corpus Of Modern Scottish Writing 当代苏格兰语实库 https://www.sodocs.net/doc/4d13019920.html,/cmsw/ Slang https://www.sodocs.net/doc/4d13019920.html,/ (American, English, and Urban slang) https://www.sodocs.net/doc/4d13019920.html,/slang/ (UK) https://www.sodocs.net/doc/4d13019920.html,/ https://www.sodocs.net/doc/4d13019920.html,/cybereng/slang/ https://www.sodocs.net/doc/4d13019920.html,/ https://www.sodocs.net/doc/4d13019920.html,/

最常用的英语动词(根据美国语料库整理 word 可打印)

be turn walk wear lie have start win support occur do might offer end accept say show remember hit identify go hear love base determine can play consider produce prepare get run appear eat argue would move buy teach recognize make like wait face indicate know live serve cover wonder will believe die describe lay think hold send catch fail take bring expect draw arrive see happen build choose name come must stay cause present could write fall point answer want provide cut listen compare look sit reach realize miss use stand kill place act find lose remain close state give pay suggest involve discuss tell meet raise increase force work include pass seek check may continue sell deal laugh should set require fight guess call learn report throw study try change decide fill prove ask lead pull represent hang need understand return focus design feel watch explain drop forget become follow hope plan claim leave stop develop push remove put create carry reduce sound mean speak drive note enjoy keep read break enter form let allow thank share establish begin add receive rise visit seem spend join shoot care help grow agree save avoid talk open pick protect imagine

COCA语料库最常用1000动词

72 add 73 understand 74 follow 75 speak 76 allow 77 spend 78 read 79 walk 80 open 81 win 82 grow 83 love 84 remember 85 offer 86 wait 87 serve 88 consider 89 buy 90 die 91 appear 92 stay 93 send 94 build 95 fall 96 expect 97 cut 98 kill 99 suggest 100 reach 101 remain 102 thank 103 require 104 report 105 raise 106 pass 107 pull 108 sell 109 develop 110 decide 111 hope 112 end 113 return 114 explain 115 drive 116 join 117 receive 118 break 119 wear 120 carry 121 support 122 pick 123 agree 124 base 125 eat 126 teach 127 hit 128 produce 129 describe 130 cover 131 face 132 catch 133 listen 134 draw 135 cause 136 choose 137 point 138 realize 139 increase 140 place 141 close 142 focus 143 involve 144 represent 145 seek 146 reduce 147 throw 148 fight 149 deal 150 push 151 fill 152 note 153 drop 154 plan 155 share 156 identify 157 enter

相关主题