搜档网
当前位置:搜档网 › 语料库语言学基本概念

语料库语言学基本概念

In

You shall know a word by the company it keeps.

C

转写或文本采集文本清洁标注集确定标注入库

软件建库论证

采样标准

软件设计与开发语料库应用外语教学外语研究

课题进度安排

谢谢

语料库翻译学_问题与展望_龙绍赟

江西社会科学2012.12 244 语料库翻译学:问题与展望 ■龙绍眖语料库翻译学在汲取语料库语言学、描写性译学及其他相关学科营养的同时,不断丰富和发展自己的研 究内容和研究方法,颠覆了传统译学的研究方法,形成了自己独特的研究对象,拓展和深化了翻译学研究的外延和内涵。然而,语料库翻译学研究也存在内容上的缺陷。因此,未来的语料库翻译学研究应紧密结合翻译学的跨学科属性,构建并完善语料库翻译学的理论体系,发挥其方法优势,突破自身的缺陷,实现其发展预期。 [关键词]语料库翻译学;跨学科属性;代表性;应用文体;深度与广度 [中图分类号]H0[文献标识码]A[文章编号]1004-518X(2012)12-0244-05 龙绍眖(1969—),男,江西师范大学外国语学院副教授,硕士生导师,主要研究方向为语料库语言学。(江西南昌330022) 20世纪以来,描写性译学悄然兴起,语料库语言学蓬勃发展。20世纪90年代,以英国曼彻斯特大学翻译与跨文化研究中心Mona Baker为代表的一批学者相继将语料库应用于翻译学研究,开启了全新的译学研究范式—— —语料库翻译学。语料库翻译学注重实证研究,强调数据统计与理论分析的有机结合,主张从大量翻译事实或现象出发,在对获取数据进行统计分析的基础上来阐明翻译本质、翻译过程、翻译策略及翻译活动的制衡因素,有效地弥补了定性研究的缺陷与不足。短短十几年的发展,语料库翻译学已逐渐形成自己独特的研究领域,并发展为翻译研究领域不可或缺的学科。但语料库翻译学研究在技术层面、研究方法、研究广度和深度等层面还有很多不足,本文就此提出一些建议与策略。 一、语料库翻译学的发展概况 语料库翻译学,指以语料库为基础,以真实的双语语料或翻译语料为研究对象,以数据统计和理论分析为研究方法,依据语言学、文学和文化理论及翻译学理论,系统分析翻译本质、翻译过程和翻译现象等内容的研究。[1]语料库翻译学最早由Mona Baker于1996年正式提出[2],Tymoczko将该领域的研究命名为“Corpus Trans-lation Studies”(语料库翻译学研究)。[3]语料库翻译学是语料库语言学和描写性译学相互影响、相互结合的产物。Sara Laviosa认为:语料库语言学和翻译研究的结合形成了“一种连贯的、全面而丰富的研究范式。该范式涉及翻译理论、描写和实践等方面的问题,业已成为当代描写性译学研究的新范式”。[4]相应的,语料库翻译学具有这两个研究领域的特征,即语料库方法的运用与注重描写与实证。[1] 语料库翻译学已成为语料库翻译学区别于传统译学研究不可或缺的研究领域。译学研究语料库的建设应属语料库翻译学的研究内容之一。不同于以学者直觉和

语料库语言学综述

语料库语言学综述 作者:刘美良 作者单位:柳州铁道职业技术学院,广西,柳州,545001 刊名: 科技信息 英文刊名:SCIENCE & TECHNOLOGY INFORMATION 年,卷(期):2010,""(21) 被引用次数:0次 参考文献(19条) 1.Chomsky,N Syntactic Structure 1957 2.Sinclair.John Corpus.Concordance Collocation 3.Susan Hunstom Corpora in Applied Linguistics 2006 4.Aijmer,K.Altenberg,B English Corpus Linguistics:Studies in Honour of Jan Svartvik 1991 5.杨惠中语料库语言学导论 2002 6.何安平语料库在外语教育中的应用--理论与实践 2004 7.何安平谈语料岸研究 1997(5) 8.丁信善语料库语言学的发展及研究现状 1998(1) 9.李文中2003上海语科库语言学国际会议述评 2004(1) 10.粱旭红语料库语言学研究综述 2001(1) 11.粱燕近十年我国语料库实证研究综述 2004(6) 12.刘满堂近40年英语语料库及语料库语言学研究的回顾与出展望 2004(1) 13.潘永本梁语料库语言学的目的和方法 2001(3) 14.王建新语料库语言学发展史上的几个重要阶段 1998(4) 15.许家金语料库语言学的理论解析 2003(6) 16.卫乃兴专业性搭配初探--语料库语言学方法 2001(4) 17.卫乃兴语料库语言学的弗斯学说基础 2008(3) 18.甄风超.张霞语料库语言学发展趋势瞻望--2003语料库语言学国际会议综述 2004(4) 19.吴菲国内外英语语料库的建设和发展述评 2007(6) 相似文献(4条) 1.期刊论文王虹.岳俊发.Wang Hong.Yue Jun Fa书面言语鉴定技术的发展历程-中国公共安全(学术版)2005,""(3) 书面言语鉴定技术产生于20世纪80年代中期.随着电子打印技术的普及,涉案的不留笔迹的打印文件显著增加,书面言语鉴定技术倍受关注.近年来,运用统计语言学、语料库语言学和计算机词频检索与统计等新技术获得了新的研究成果并应用于鉴定实践.书面言语鉴定技术已经发展成为文件检验学的一个新的分支,必将在司法鉴定领域发挥更大的功效. 2.期刊论文孙丰果话语分析整合研究-聊城大学学报(社会科学版)2010,""(2) 近60年来.话语分析经历了从无到有,从小到大的发展历程.话语分析要取得长足发展,需要有一个明确的概念,需要人们对其以前的发展情况进行总结和评述.对话语分析研究的评述不妨从系统功能语言学、认知语言学、语料库语言学等多角度进行.今后,话语分析研究可以从话语分析的哲学转向、心理学转向及整合批评话语分析和积极话语分析等方面展开. 3.期刊论文杨连瑞.Yang Lianrui第二语言习得研究的学科定位和进展-外语与外语教学2005,""(5) 第二语言习得是一种复杂的人文现象.作为一门新兴的交叉学科,第二语言习得研究在发展中应重视其学科性质的科学定位和学科体系的科学建构.本文在对第二语言习得研究的学科定位、学科性质和研究对象进行讨论后,回顾和评述了国外第二语言习得研究从对比分析、错误分析、中介语理论、普遍语法研究、语言类型学研究到语料库语言学研究的发展历程和研究问题,分析了目前我国开展这一学科研究的现状,并结合我国外语教学实际对目前开展这一学科的研究提出建设性意见. 4.学位论文魏琳中国英译旅游宣传材料的语料库分析2006 旅游业在全球范围内的迅猛发展使不同文化背景的人们进行文化交流变成了一种需要。在我国,旅游英语特别是网上的旅游英译材料是外国游客接触和了解我国的媒介。因此,旅游材料的翻译质量举足轻重。而目前旅游文本的翻译研究在中国还是一个比较新的话题,近年来主要是结合最新语言学

语料库话语分析综述

近十年国内基于语料库的话语研究综述 A Review of Ten - year Research on Corpus-Based Discourse Analysis in China 摘要:文章从基于语料库的话语研究领域出发,通过对2002年至2011年发表在国内八种核心期刊上的论文进行统计与分析,发现这些研究在研究领域取得了很大的进步,涉及到话语各个方向,对于实践有重大指导作用,但同时也出现一些问题值得我们关注。 Abstract: From corpus-based discourse analysis, this thesis finds this field has made great progress, relates to many directions of discourse and has a significant guiding role for the practice, but also brings many problems worthy our attention. All of these are derived from the research and analysis of thesises published in 8 kinds of core journals from 2002 to 2011 in China. 关键词: 语料库话语基于语料库的话语研究 0. 引言 现代语料库语言学是20世纪中后期兴起的一门语言研究科学。语料库是指按一定的语言学原则,运用随即抽样的方法,收集自然出现的连续的语言运用文本或话语片段而建成的具有一定容量的大型电子文库。在20 世纪后半叶的西方语言学界, Chomsky的观点大行其道,秉承该学说的语言研究者唯直觉语料独尊。他们躲在书斋,满足于依靠自己的直觉语料从事语言研究。随着社会语言学、话语分析、语用学、语料库语言学的兴起,越来越多的语言学家认识到光靠直觉语料来研究语言是远远不够的,人们还必须借助语料库语料以及其他各种语料,只有这样我们才能更好地揭示语言的本质,克服直觉语料的局限与不足。这样基于语料库的话语研究越发引起大家的重视,并取得了丰硕的成果。国内基于语料库的话语研究虽然起步较晚,但是成果仍然颇丰。 1. 研究样本 由于近几年运用语料库来做话语研究已经成为语言研究的热点,笔者通过检索主题与关键词,将文献定在2002年至2011年这十年期间,研究样本来源为发表在八种外语类核心期刊的22篇文章。这是因为这8种外语类期刊有一定的权

机器翻译研究综述

机器翻译综述 1.引言 1.1机器翻译的历史 现代机器翻译的研究应该是从20世纪50年代开始,但是早在这以前很多人已经提出了相应的想法,甚至是远在古希腊时期就有人提出要用机器来进行语言翻译的想法。 在1946年,美国宾夕法尼亚大学的两位科学家设计并制造了世界上第一台电子计算机。与此同时,英国工程师同美国洛克菲勒基金会副总裁韦弗在讨论计算机的应用范围时,就提出了利用计算机实现语言的自动翻译的想法。在1949年,韦弗发表了一份名为《翻译》的备忘录,正式提出了机器翻译问题。他提出了两个主要观点: 第一,他认为翻译类似于解读密码的过程。 第二,他认为原文与译文“说的是同样的事情”,因此,当把语言A翻译为语言B时,就意味着从语言A出发,经过某一“通用语言”或“中 间语言”,可以假定是全人类共同的。 在这一段时间由于学者的热心倡导,实业界的大力支持,美国的机器翻译研究一时兴盛起来。 1964年,美国科学院成立语言自动处理咨询委员会,调查机器翻译的研究情况,给出了“在目前给机器翻译以大力支持还没有多少理由”的结论,随后机器翻译的研究就陷入了低潮期。直到70年代以后机器翻译的研究才重新进入了一个复苏期,随后机器翻译的发展又迎来了繁荣期 1.2机器翻译的主要内容 经过50多年的发展,在机器翻译领域中出现了很多的研究方法,总结如下:●直接翻译方法 ●句法转换方法 ●中间语言方法 ●基于规则的方法 ●基于语料库的方法 基于实例的方法(含模板、翻译记忆方法) 基于统计的方法 在当前的研究中,更多的是基于统计的方法进行的,因为基于统计的方法可以充分的利用计算机的计算能力,并且并不需要过多的语言学知识作为支撑,可以让更多的计算机科学家投入到实用系统的研究中,极大的促进了统计机器翻译的发展。 下面对各个方法逐一的进行介绍。

Corpus Linguistics and Translation Studies Mona Baker 1993 语料库翻译学文献

Corpus Linguistics and Translation Studies Implications and Applications Mona Baker Cobuild, Birmingham Abstract The rise of corpus linguistics has serious implications for any discipline in which language plays a major role. This paper explores the impact that the availability of corpora is likely to have on the study of translation as an empirical phenomenon. It argues that the techniques and methodology developed in the field of corpus linguistics will have a direct impact on the emerging discipline of translation studies, particularly with respect to its theoretical and descriptive branches. The nature of this impact is discussed in some detail and brief reference is made to some of the applications of corpus techniques in the applied branch of the discipline. 0.Introduction A great deal of our experience of and knowledge about other cultures is mediated through various forms of translation, including written translations, sub-titling, dubbing, and various types of interpreting activities. The most obvious case in point is perhaps literature. Most of us know writers such as Ibsen, Dostoyevsky and Borges only through translated versions of their works. But our reliance on translation does not stop here. Our understanding of political issues, of art, and of various other areas which are central to our lives is no less dependent on translation than our understanding of world literature. Given that translated texts play such an important role in shaping our experience of life and our view of the world, it is difficult to understand why translation has traditionally been viewed as a second-rate activity, not worthy of serious academic enquiry, and why translated texts have been regarded as no more than second-hand and distorted versions of …real? text s. If they are to be studied at all, these second-hand texts are traditionally analysed with the (233) sole purpose of proving that they inevitably fall short of reproducing all the glory of the original. A striking proof of the low status accorded to translated texts comes from the young but by now well-established field of corpus linguistics. A recent survey commissioned by the Network of European Reference Corpora, an EEC-funded project, shows that many corpus builders in Europe specifically exclude translated text from their corpora.1 This

语料库语言学的发展

语料库语言学的发展 语料库顾名思义就是放语言材料的仓库。现在人们谈起语料库,不言而喻是指存放在计算机里的原始文本或经过加工后带有语言学信息标注的语料文本。现在世界上已经有了不少规模较大的语料库,有些是国家级的,有些由大学和词典出版商联合建设。另外,由于个人微机的迅猛发展和存贮数据的硬盘造价持续下降,研究者个人也开始建立适合于自己研究的小型语料库。 语料库语言学(英文corpus linguistics)这个术语有两层主要含义。一是利用语料库对语言的某个方面进行研究,即“语料库语言学”不是一个新学科的名称,而仅仅反映了一个新的研究手段。二是依据语料库所反映出来的语言事实对现行语言学理论进行批判,提出新的观点或理论。只有在这个意义上“语料库语言学”才是一个新学科的名称。从现有文献来看,属于后一类的研究还是极个别的。所以,严格地说,现在不能把语料库语言学跟语言学的分支, 如社会语言学、心理语言学、语用学等相提并论。 近年来,随着我国经济的发展,科研经费的增加,汉语语料库的建设得到了开展。1999 年我院把建立汉语语料库列为院重大课题。目前语言所正在构建三个大规模的语料库: 现场即席话语语料库,主要方言口语库和现代汉语文本语料库。在世界范围内,我国的语料库建设在规模上还赶不上欧洲的一些发达国家,特别是英国。然而,在语料库语言学的研究上,以及语料库的实际运用上,我国已经进入世界前沿的行列。 20 世纪语言研究的总特点可以用四个字概括──高度抽象。最近几十年来,语言研究的高度抽象倾向已经失去主导地位。这主要缘于两个方面的因素: 一是计算机技术,特别是基于计算机处理的多媒体技术的飞速发展;二是社会语言学、语用学、会话分析、人类语言学、计算语言学、人机对话研究、语音识别与合成等研究取得令人瞩目的成就。先前难以抓住并进行有效处理的五花八门的实际语料,现在可以对其进行大规模地的、自动的或人机配合的处理。比如个人发音特征,先前认为这跟语言学毫无关系,现在成了侦破语音学的重要内容。侦破语音学家首先建立个人发音特征语料库,这个语料库可以用来鉴别嫌疑犯。概言之,当今的语言研究由先前的高度抽象逐步走向最具体的语言的实际活动,其中

语料库翻译学研究内容

研讨五语料库翻译学 1. 什么是语料库翻译学? 2. 语料库翻译学的理论基础? 3. 语料库翻译学的研究内容? 4. 什么是翻译共性? 根据研究课题的来源,语料库翻译学的研究领域分为三类。 第一类源自传统译学研究,包括基于语料库的文学翻译、翻译史、翻译教学、翻译实践、机器翻译和口译等领域的研究。 基于语料库的文学翻译研究以文学翻译作品的文本分析为基础,研究文学翻译理论与实践的相关课题。这些课题具体为: 1) 意象和人物形象的再现与变形,2) 文学风格的再现与重构,3) 文学翻译的创造性,4) 译者风格,5) 文学作品空白和未定性的翻译,6) 文化负载词的翻译,7) 误译和漏译研究。 基于语料库的翻译史研究利用历时性平行语料库对名家译作进行文本分析,揭示翻译家在翻译策略应用、翻译风格和翻译语言等方面所表现出的个性特征及其所遵循的翻译规范。目前,翻译史研究大多将翻译家的观点或言论视为客观现实,满足于翻译事实的罗列,对于翻译规范和历史语境关注不够。事实上,翻译家的所做与所言往往不一致,翻译家所言并不能反映其翻译作品的特征。此外,翻译是一种特殊的社会文化行为,受特定规范的制约。这些规范因时代或文化的差异而不同。利用语料库分析翻译文本的具体特征,归纳不同历史时期的翻译规范,可以阐明翻译家的所作所为,还原历史的真实面貌。另外,该领域的研究还通过提取语料库的篇头信息,对于具体某一历史时期的翻译活动进行客观描述。这些信息包括出版商、出版时间、作品主题、译者姓名和性别等内容。应当指出,语料库翻译学与翻译史均强调对研究对象进行客观描写,重视还原语境方法( contextualization) 的应用。这些共性为语料库在翻译史研究中的应用提供了作为空间。 以上研究均属语料库翻译学理论层面的研究,而基于语料库的翻译教学、翻译实践和机器翻译研究都是应用层面的研究。前者侧重于探讨语料库在翻译评估、翻译教材编写和翻译教学模式中的应用,后者主要关注双语词汇和句式之间的对应关系、翻译策略和方法的应用等问题。基于语料库的机器翻译研究是指利用语料库的核心技术,建设具有海量信息的知识库,以满足机助翻译或自动翻译的需求。 基于语料库的口译研究侧重于分析口译语料词汇、句法和语篇等层面的特征,研究口译语言特征、口译规范、口译策略和方法等。该领域的研究是综合性研究,既有理论层面的探讨,也有实践层面的分析。 第二类研究领域源自描写性译学研究,涵盖翻译共性、翻译规范和批评译学等领域的研究。 翻译共性是指由于翻译过程而形成的翻译文本所具有的区别于原创文本的特征,与源语和目的语之间差异无关,具体表现为显化、隐化、简化和范化等。翻译规范是“译者在具体时间或社会文化环境中所做出的规律性或习惯性选择”。“翻译规范是关于翻译作品和翻译过程正确性的规范,体现了具体某一社会或历史时期关于翻译的价值观和行为原则”。翻译规

双语对应语料库翻译教学平台的应用初探_王克非

语言技术与外语教学研究 *版权所有 文责自负* 双语对应语料库翻译教学平台的应用初探 王克非1 ,秦洪武2 ,王海霞 2 (1.北京外国语大学中国外语教育研究中心,北京 100089;2.曲阜师范大学外语学院,山东曲阜 273165) 摘 要:本文通过语料呈现实验探讨双语对应语料库翻译教学平台的应用效果。实验显示,学生在观察语料后能够归纳和总结出有意义的翻译技巧,并能据此评估或反思自己的翻译行为。实验表明,在翻译课堂教学中使用语料资源有助于自主学习和发现式翻译教学环境的创建,也有助于学习者形成 稳定的翻译技巧。 关键词:对应语料库;翻译教学;发现式学习;语料呈现中图分类号:H 319.3 文献标识码:A 文章编号:1001-5795(2007)12-0003-0006 近20年来,语料库的创建和应用取得了长足发展。对应语料库大都在上世纪九十年代开始创建,起步较晚,但已展现出广阔的应用前景。在欧美,这类语料库有十多个,涉及近20个语种,如H ansard(法-英对应语料库)和ENPC (英语-挪威语对应语料库)(V ron is 2000:14-15);在中国,有中科院计算所的大规模汉英对应语料库、北京大学的/B ABLE 汉英平行语料库0,以及北京外国语大学的/通用汉英对应语料库0(该库现有可检索语料2千万字/词以上,见王克非2004a),后者是本项研究使用的主要工具。对应语料库的创建有两个主要目的:一是用于语言与翻译研究,二是用于外语教学。用于前者的研究成果丰富,涉及语言对比、双语词典编纂和翻译研究(Lav i o sa 1997;Baker 1999;Serpellet 2000;H unston 2002)。用于后者尤其是用于翻译教学的研究也已取得不少成果,如Zanetti n 1998、Pearson (2003:15-24)和Bernardini (2004b :97-111),但大都研究平行语料为翻译训练提供的可能的资源和手段,还没有研究探讨大型对应语料库在课堂教学中的实际应用问题。 1 研究内容 有关运用语料库提高翻译效率和质量的研究还没有全面展开,而将对应语料库应用于翻译教学的研究则是刚刚开始(Bo w ker 2003;Ber nardi n i 2004b)。从理 论上看,语料库用于教学有利于自主学习环境的创建(Bernardini 2004a :22;秦洪武、王克非2007)。自主性学习主要表现在两个方面:研究性学习和发现式学习(learning as discovery)。前者假定学习者和教师研究兴趣相投、研究能力相当;后者则鼓励学习者自行调节兴趣点,并给他们提供机会来提高自己观察和处理问题的能力,使他们对两种语言的特征和差异有敏锐的觉识。本文认为,研究和发现虽不矛盾,但在以技能培养为核心的翻译教学中,不宜过分强调学生的研究能力,发现式学习这一提法更合适一些。 近年来,国内也有研究关注语料库在翻译教学中的应用问题。有些研究探讨了语料库在翻译教学中的用途(郭红2004;于连江2004;王克非2004b),但还没有研究系统地探讨对应语料在课堂教学中的应用方式和应用效果,也没有研究关注学生对于语料使用的态度。鉴于此,我们以/通用汉英对应语料库0为翻译教学平台,探讨在现有技术条件下翻译语料用于翻译教 作者简介:王克非:男,教授,博士生导师。研究方向:语言学、翻译学。 秦洪武:男,教授,博士。研究方向:语言学、翻译学。王海霞:女,讲师,硕士。研究方向:翻译学。 收稿日期:2007-03-18 基金项目:本文是国家社科基金课题/基于大型英汉对应语料库的翻译研究与翻译教学平台0的阶段性成果(编号05BYY 013),并获得曲阜师范大学科研启动基金资助(编号Bsqd2007022)。 # 3#第118期2007年12月 外语电化教学 C AFLE N o .118D ec . 2007

语料库语言学简史

语料库语言学简史 语料库语言学及语料库方法的作用在今天已不容忽视,但是语料库语言学的发展却经历了一段长期曲折的过程。以1957年Chomsky《句法结构》的发表为界,此前的语料库研究被语言学界广泛称为“早期的语料库语言学”;从上世纪50年代至80年代语料库语言学进入低谷;从80年代开始,语料库语言学迎来了它的“复苏期”。 1 早期的语料库语言学 利用真实语言资料进行研究,是词汇学家和语法学家的优良传统。早在1747年英语词典编纂的鼻祖Samuel Johnson就发表了Plan of an English Dictionary,将前人收集资料的最好方法作了总结,他所编的英语词典含15万条以上的引证说明,可见其所收集的资料库已相当可观。Oxford English Dictionary于1928年完成,所用的引证达400多万条,卡片1100多万张,还专门出版了中古英语手稿与文章350册,供编写OED时参考。Webster’s New International Dictionary第二版的编写参照了100多万条引证,第三版于1961年付印时,新旧引证共达1000多万条。英语语法大师Jesperson在编写《英语语法大全》(1909-1949)时,所使用的卡片数目多达30至40万张。(王建新,1998:52) 20世纪40年代,美国的语言学家Boas在研究美洲印第安语言时就使用了语料库的方法(corpus-based methodology),后来的结构主义语言学家更是如此。只不过当时还没有出现一个专门叫“语料库语言学”的词汇而已。下面是早期语料库语言学的一些主要研究领域: 1.1 语言习得研究 19世纪70年代,语言学家就系统地对幼儿语言习得进行了研究。这些研究都基于父母对幼儿话语及时记录的日记材料。即使在现代,基于原始语料的语言习得研究也没有停止(Ingram,1978)。 在以日记材料为语料的研究风行过后(通常认为从1876年至1926年),语言习得的研究主要表现为下面两种方式:(1)以大量的、不同年龄段的儿童为语言素材的来源(informant),进行语言发展和成熟的研究;(2)以少量的儿童为语言素材的来源,长期跟踪记录他们使用的语言而进行的历时研究(McEnery,Wilson,2001:3)。 1.2 拼写规范研究 德国语言学家Kading以德语大型语料(1100万词次)为基础,对德语各字母在文本中的出现频率以及字母串进行了研究。 1.3 语言教学研究 20世纪20年代,由于大量移民涌向北美,以及各英属殖民地对英语教学的需要,有好几项工程都把寻找英语语言中最常用的词汇作为了主要的研究目标(Fries 和Traver,1940;Bongers,1947)。1921年,Thorndike借助于语料库发布了英语词汇的使用频率研究报告。此项研究对后来美国以及世界其他地区的英语教学都产生了巨大的影响。1944年,Thorndike进一步完善了他的早期研究,发表了“教师3万词汇手册”(The Teacher’s Wordbook of 30,000 words)。此时,Thorndike 研究所依据的语料库已达到1800万词次。 出于教学目的而对英语词汇进行基于语料库研究最著名的例子是Michael West的“实用英语词汇表”(General Service List of English Words)。此项成果发表于1953年,它对当时英语书面语中最常用的2,000个词汇进行了具体的描述,

语料库和知识库的研究现状

语料库和知识库研究现状 2015-12-9

摘要:语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源,它与自然语言处理有着相辅相成的关系,是用统计语言模型的方法处理自然语言的基础资源。知识库广泛应用于信息检索、机器问答系统、自动文摘、文本分类等领域,为进行大规模的真实性文本的语义分析提供了有利的支持,它也成为自然语言处理不可或缺的基础资源。由于语料库和知识库的广泛应用,如今国内外对语料库和知识库的研究给与高度的重视,经过过去几十年的发展,各国在语料库和知识库的建设和应用方面都取得了不少成果。本文通过对语料库与知识库相关文献资料的搜索整理,重点介绍目前国内外在语料库和知识库方面的研究现状。 关键词:语料库;知识库;研究现状 1前言 语料库是指按照一定的语言学原则,运用随机抽样的方法,收集自然出现的连续的语言文本或者说话片段而建成的具有一定容量的大规模电子文本库[1]。而知识库是知识工程中结构化、易操作使用,全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。语料库和知识库在传统语言研究、词典编纂、语言教学、自然语言处理等领域有重要作用,所以自从20世纪60年代第一个现代意义上的语料库——美国布朗语料库(Brown Corpus)诞生开始,大批国内外的专家学者致力于语料库和知识库的研究,近年来国内外对于语料库知识库的研究取得了重大的突破,形成了规模不一的各种语料库和知识库,并且涌现了众多有关语料库和知识库的专着、论文等。对于语料库和知识库发展现状的总结研究,不仅可以帮助人们清楚的了解语料库和知识库当前发展的形势,对今后语料库知识库的发展具有一定的指导作用,而且对于应用语料库知识库发展自然语言处理等领域具有重要意义。

机器翻译研究现状与展望

机器翻译是建立在语言学、数学、信息学、计算机科学等学科基础上的多边缘学科。现代理论语言学的发展、计算机科学的进步以及概率统计学的引入, 对机器翻译的理论和方法都产生了深刻的影响。 Weaver机器翻译思想的提出, 开始了机器翻译的研究热潮。Chomsky在50年代后期提出的短语结构语法, 给出了“从规则生成句子”的原则。由于短语结构语法采用单一标记的短语结构来描述句子的构成, 描述粒度过粗, 因此存在约束能力弱、生成能力过强问题, 人们逐渐意识到仅依靠单一的短语结构信息, 不能充分判别短语类型和确认短语边界, 于是, 复杂特征集和词汇主义被引入自然语言语法系统, 广义短语结构语法、词汇功能语法、中心语驱动的短语结构语法等语言学理论也相应地产生。在这个发展过程中, 基于规则方法一直是机器翻译研究的主流。 在基于规则的方法中, 语言规则的产生需要大量的人力,而且大量的语言规则之间往往存在着不可避免的冲突。另外,规则方法在保证规则的完备性和适应性方面也存在着不足。而此时, 统计学方法在自然语言处理的语音识别领域取得了比较好的效果, 于是, 基于统计的机器翻译应运而生。随着双语语料的大量增加、计算机性能的提高, 基于实例的机器翻译方法被提出,并由此泛化产生了基于模板的机器翻译方法。 下面我们分别介绍几种典型的机器翻译方法: (1)基于规则的机器翻译方法

从Chomsky提出转换生成文法后,基于规则的方法一直是机器翻译研究的主流,Chomsky认为一种语言无限的句子可以由有限的规则推导出来。 早期的机器翻译系统, 从体系结构上可以分为直译式、转换式和中间语言式, 它们的不同之处在于对源语言分析的深度, 它们的相同点是都需要大规模的双语词典、大量的源语言推导规则、语言转换规则和目标语言生成规则。其中, 转换式的基于规则方法对源语言分析得比较深, 它涉及到词汇结构分析、语法分析、语义分析, 并完成词汇、语法、语义三层结构从源语言到目标语言的转换, 而且转换式的方法又充分考虑了源语言和目标语言之间的特征联系, 它比中间语言方法更容易获得高质量的翻译结果。因此, 转换式的方法更多地被应用在早期的机器翻译系统中, 整个翻译过程被分为, 源语言分析部分, 转换部分和目标语生成部分。而早期的系统, 如德国西门子的METAL系统、美国的SYSTRAN系统、日本日立公司的ATHENE系统以及中国中软公司的HY-1汉英系统, 都是基于转换的机器翻译系统。 基于规则的机器翻译的优点在于, 规则可以很准确地描述出一种语言的语法构成, 并且可以很直观地表示出来。机器可以按照一组规则来理解它面对的自然语言, 这组规则包含了不同语言层次的规则, 包括用以对源语言进行描述的源语言分析规则、用以对源语言/目标语言之间的转换规则以及用于生成目标语的生成规则。

语料库语言学术语汇编Aglossaryofcorpuslinguistics.docx

语料库语言学术语汇编 ( V2.0 ) Last updated 2012-10-08 by许家金 Aboutness所言之事 Absolute frequency绝对频数 Alignment (of parallel texts)(平行或对应)语料的对齐Alphanumeric字母数字构成的 Annotate标注(动词) Annotated text/corpus标注文本 /语料库、赋码文本/语料库Annotation标注(名词) Annotation scheme标注方案 ANSI/American National Standards Institute美国国家标准学会 ASCII/American Standard Code for Information美国信息交换标准码 Exchange Associates (of keywords)(主题词的)联想词 AWL/academic word list学术词表 Balanced corpus平衡语料库 Base list/baselist底表、基础词表 Bigram二元组、二元序列、二元结构 Bi-text/bitext双语合并文本、双语分行对齐文本 (一句源语一句目标语对齐后的文 本) Bi-hapax两次词 Bilingual corpus双语语料库 Bootcamp debate/discourse/discussion(新手)训练营大辩论 /话语 /大探讨CA/Contrastive Analysis对比分析 Case-sensitive/case sensitivity大小写敏感、区分大小写 Category-based approach基于类(范畴)的方法 Chi-square test/ 2χ卡方检验 Chunk词块 CIA/Contrastive Interlanguage Analysis中介语对比分析 CLAWS/Constituent Likelihood Automatic Word-CLAWS 词性赋码系统 tagging System Clean text policy干净文本原则 Cluster词簇、词丛 Colligation类联接、类连接、类联结 Collocate n./v.搭配词;搭配 Collocability搭配强度、搭配力 Collocation搭配、词语搭配 Collocational strength搭配强度 Collocational framework/frame搭配框架 Collocational profile搭配概貌

语料库语言学与中国外语教学

2010年11月November 2010 第33卷第4期Vol.33No.4 现代外语(季刊) Modern Foreign Languages (Quarterly )语料库语言学与中国外语教学 桂诗春 冯志伟杨惠中何安平卫乃兴李文中梁茂成 [编者按] 为推动我国应用语言学研究的新发展,教育部人文社科重点研究基地———广东 外语外贸大学外国语言学及应用语言学研究中心于2010年9月24-25日成功举办了“首届广外应用语言学论坛”,庆贺我国著名语言学家、应用语言学学科的开拓者桂诗春教授八十华诞。期间,举行了题为“语料库语言学与外语教学”的高层论坛,就语料库语言学的现状、发展前景及语料库的建设、共享、应用等展开了互动讨论。以下是根据专家发言,整理后的主要内容。 [中图分类号]H319 [文献标识码]A [文章编号]1003-6105(2010)04-0419-08 语料库语言学的发展前景与资源共享 广东外语外贸大学 桂诗春 1.语料库语言学的发展前景 语料库语言学在外国和国内都发展很快,有的人选择了它作为发展方向,因为它的入门比较容易,上手较快;有的人把语料库语言学作为收集数据的重要手段。但是总的来说,我们的语料库研究还处在比较初级阶段,需要提高。究其原因是很多人把它看成是一种工具或手段,可以运用现有的一些现成的程序和公开的语料库,如Brown ,LOB ,Frown. Flob , BNC ,CLEC ,只要选题得当,就能获得很多量化的数据,从而写出洋洋洒洒的文章来。在计算机和扫描仪的支持下,自行收集一些语言素材,建立一个特定的语料库,也不是什么难事。 我觉得,语料库语言学既是一种工具,但更是一门学科;它是对语言行为进行概率性归纳和概括的一门学科,它本身是跨学科性的,要做语料库语言学研究必须许多方面要有比较雄厚的基础。首先是数学和统计学。Herdan (1960)的一本早期著作,叫做《词次/词型数学》(Type /token Mathematics ),其副标题就是《数理语言学教科书》(A Textbook of Mathematical Linguistics ),当时还是前计算机 时代,但Herdan 觉得有两件语言事实值得我们注意:一是大量语言资料(language in mass ),二是语言排列(language in line ),它们是任何语言运作都不能离开的两个方面。某些语言学研究分支如果考虑到这两个方面,将会从中获益。当时还没有真正的机读语料库, Brown 的语料库在1967年才面世,美国心理 学家John Carroll 根据该语料库以及他后来参与制作500万词的AHI 语料库,所提出的词汇频数对数正态模型(lognormal model )均源于Herdan 所奠定的基础。一直到最近美国Barber 利用计算机对英语语体的各种研究,更是利用了因子分析的统计方法。其次是计算机科学。语料库的发展离不开现代科学技术,其主要表现是个人电脑、扫描仪和大容量硬盘的普及,当初Brown 语料库要动用到大型电脑,而到如今,只需一万元左右就能在家里拥有这些设备,制作出甚至比Brown 还要大的语料库。但是我们往往只注意到硬件部分,而不认识到软件的建设。从事语料库语言学研究的人而不掌握一到两种编成语言,也不可能拓展他们的研究领域,因为他不能根据个人的研究需

王克非 语料库翻译学的几个术语

2007年11月第23卷 第6期 四川外语学院学报 Journal of Sichuan I nternati onal Studies University Nov.,2007 Vol.23 No.6语料库翻译学的几个术语 王克非1 黄立波2 (11北京外国语大学中国外语教育研究中心,北京 100089; 21西安外国语大学英文学院,陕西西安 710061) 提 要:语料库翻译学,即基于语料库的翻译研究,关注翻译共性问题。主要阐述语料库翻译学关于翻译共性研究的几个术语,并评介相关论点。 关键词:语料库翻译学;共性;简化;显化;隐化;范化;整齐化 中图分类号:H31519 文献标识码:A 文章编号:1003-3831(2007)06-0101-05 Ter m s i n Corpus2Ba sed Tran sl a ti on Stud i es WANG Ke2fei HUANG L i2bo Abstract:Issues of translati on universals have recently been discussed in cor pus2based translati on studies.The paper ex2 pounds s o me ter m s in this disci p line including translati on universals,si m p lificati on,ex p licitati on,i m p licitati on,nor maliza2 ti on and leveling out,and makes brief co mments on the vie wpoints inv olved. Key words:cor pus2based translati on studies;translati on universals;si m p lificati on;ex p licitati on;i m p licitati on;nor malizati on; levelling out 语料库翻译学,又称基于语料库的翻译研究,是近十多年随语料库语言学发展起来的新学科分支,包括方法论或工具层面上的应用研究、描写性研究和关于翻译特征的抽象性理论研究。它在研究方法上以语言学和翻译理论为指导,以概率和统计为手段,以双语真实语料为对象,对翻译进行历时或共时的研究,代表了一种新的研究范式,产出了一批研究成果,加深了人们对翻译现象的认识,值得我们关注。本文讲解这一学科有关翻译共性研究的几个基本术语,希望有助于读者的了解。 一、语料库翻译学 语料库翻译学是指根据特定的研究目标,建立以真实翻译语料为主的语料库(包括单语类比语料库(monolingual co mparable cor pus)和双语/多语平行语料库(bilingual/multilingual parallel cor pus)、翻译语料库(translati onal cor pus)等几种类型)。这类语料库在标注上比一般语料库复杂。如翻译语料库需要对翻译文本、译者信息等要素加以详细标注,对应语料库需要对两种语料作句子或某种层级上的对齐处理,类比语料库需要对文体、主题、作者、译者等要素加以标注。语料库翻译学以电子文本为基础,以计算机统计为手段,对各类翻译现象进行大范围的或特定范围的描写,在充分描写的基础上,探究两种语言及其转换的过程、特征和规律,分析和解释翻译现象或验证关于翻译的种种假说。从本质上讲,语料库翻译学是描写性翻译研究(Descri p tive Translati on Studies)与语料库语言学(Cor pus L inguistics)相结合的跨学科产物。 语料库用于翻译研究最早可以追溯到20世纪80年代(Lavi osa,2002:1,21),但通常认为,Baker (1993:233-250)的“Cor pus L inguistics and Transla2 ti on Studies:I m p licati ons and App licati ons”一文是语料库翻译研究范式(Cor pus2based Translati on Studies Paradig m)开始建立的标志。1998年,加拿大蒙特利尔大学主办的翻译研究季刊MET A出版了Sara Lavi osa主编的基于语料库的翻译研究专号MET A43 (4),从理论阐释和实证研究两方面宣告基于语料库的翻译研究已经成为一个新的翻译研究范式。以Baker(1993)为标志,语料库翻译学可划分为前语料库和基于语料库的两个时期(Lavi osa,2002;O l ohan, 2004),前者是指大规模机读翻译文本用于翻译研究之前,通过人工采集原文和译文文本,并对与翻译有关的语言现象进行对比、分析和统计的时期。基于语料库的翻译研究范式产生以来,其研究范围覆盖了从翻译过程到翻译产品的各种翻译现象,特别是翻译共性(Translati on Universals)、翻译过程(translati on p r ocess)、翻译转换与规范(translati on shift and trans2 lati on nor m s)、译者文体(translat or’s style)、翻译教学等诸多方面。新的研究方法促进范式的形成和发展, 101

相关主题