搜档网
当前位置:搜档网 › 自然语言处理技术在中文全文检索中的应用

自然语言处理技术在中文全文检索中的应用

自然语言处理技术在中文全文检索中的应用
自然语言处理技术在中文全文检索中的应用

3本文为国家社会科学基金项目“基于中文X ML 文档的全文检索研究”的成果之一,项目编号:04CT Q005。

●熊回香,夏立新(华中师范大学 信息管理系,湖北 武汉 430079)

自然语言处理技术在中文全文检索中的应用

3

摘 要:自然语言处理技术是中文全文检索的基础。首先介绍了全文检索技术及自然语言处理技术,接着详细地阐述了自然语言处理技术在中文全文检索中的应用,并对目前基于自然语言处理技术的中文全

文检索技术的局限性进行了分析,探讨了中文全文检索技术的未来发展方向。

关键词:自然语言处理;全文检索;智能检索

Abstract:Natural language p r ocessing technol ogy is the basis of Chinese full 2text retrieval .This paper firstly intr oduces the full 2text retrieval technol ogy and natural language p r ocessing technol ogy .Then,it gives a detailed 2descri p ti on of the app licati on of natural language p r ocessing technol ogy in Chinese full 2text retrieval .The p resent li m itati ons of the Chinese full 2text retrieval system based on natural language p r ocessing technol ogy is als o ana 2lyzed .Finally,the paper exp l ores the devel opment trend of Chinese full 2text retrieval technol ogy in future .

Keywords:natural language p r ocessing;full text retrieval;intelligent retrieval

随着社会网络化、信息化程度的日益提高,网上信息呈指数级剧增,人们越来越强烈地希望用自然语言同计算机交流,并能方便、快捷、准确地从互联网上获得有价值的信息,因此,自然语言处理技术和中文全文检索技术成为当今计算机科界、语言学界、情报学界共同关注的课题,并共同致力于将自然语言处理技术的研究成果充分运用到全文检索中,从而促进了全文检索技术的发展。

1 全文检索技术

全文检索是一种面向全文和提供全文的检索技术,其核心技术是将文档中所有基本元素的出现信息记录到索引库中,检索时允许用户采用自然语言表达其检索需求,并借助截词、邻词等匹配方法直接查阅文献原文信息,最后将检索结果按相关度排序返回给用户。因而索引数据库的建立是全文检索系统实现的基础,它以特定的结构存储了数据资源的全文信息,从而为全文检索系统提供可检索的数据对象。在中文全文检索系统中,建立索引库的前提是运用自然语言处理技术对中文信息进行基于词(字)、句、段落等更深层次的处理。

2 自然语言处理技术

自然语言是指作者所使用的书面用语,在信息检索中包括关键词、自由词和出现在文献题名、摘要、正文或参

考文献中的具有一定实质意义的词语[1]。自然语言处理

(Natural Language Pr ocessing,NLP )是语言信息处理的一

个重要分支,在我国就是中文信息处理。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,具体来说就是用计算机对包括汉语(字)的形、音、义等信息及词、句子、篇章的输入、输出、存储和识别、分析、理解、生成等多方面的加工处理[2]。由于自然语言处理侧重于词、句子、篇章,因而词法分析、句法分析、语义分析、语用分析、语境分析便构成了自然语言处理研究内容的基础部分。

211 词法分析

词法分析包括词形和词汇两个层次,其中词形主要是对各种词形和词的可识别部分的处理。如前缀、后缀及复合词的分析;词汇的重点在于复合对词操作和词汇系统的控制。其主要目的是有助于确认词性以及做到部分理解词与词、词与文档之间的关系,提高检索的效率。由于计算机内部存储的中文信息没有明显的词与词之间的分隔符,因此,在中文全文检索系统中,词法分析首要任务之一是对文本信息进行词语切分,即汉语自动分词,汉语自动分词是中文信息处理中的关键技术,也是中文全文检索的瓶颈,只有对汉语词进行正确的切分后,才能准确地提取文献的特征信息,对文献进行正确标引,才能正确分析用户的查询意图,为用户提供准确的信息服务。

212 句法分析

句法分析是对句子中词汇短语进行分析以便揭示句子的语法结构。目的是通过对句型结构的分析,自动抽取复

杂的标识单元来代替由统计方法得到的关键词进行索引。213 语义分析

语义分析是在词法分析和句法分析的基础上进行的,它是指对自然语言文本意义的识别、理解和表示,它涉及各级语言单位(单词、词组、句子、句群)所包含的意义及其在语言使用过程中所产生的意义。

214 语用分析

语用分析涉及上下文和语言交际环境以及背景意义和联想意义的语义分析。语用学研究不同种类文本的结构,从文章的结构提取附加的含义。

215 语境分析

语境分析是对语言的目的性应用的理解,主要依赖于文件或原查询语言以外的知识,这些知识包括一般的知识、特定应用领域的知识以及关于在一个查询语言中用户的需要、偏好以及目的的知识[3]。

3 自然语言理解技术

自然语言理解是自然语言处理的高级阶段,它是研究如何能让计算机理解并生成人们日常所使用的语言,使得计算机懂得自然语言的含义,并对人给计算机提出的问题,通过对话的方式,用自然语言进行回答[4]。目的在于建立起一种人与机器之间的密切而友好的关系,使之能进行高度的信息传递与认知活动。其常用技术包括3个方面:机器翻译、语义理解和人机会话技术,它们是实现中文智能检索的前提。

4 自然语言处理技术在中文全文检索中的应用信息检索系统的工作主要分为4个部分:①文献信息处理,对文献进行分析,提取关键信息,建立转换文档及数据库;②提问处理,解释查询提问;③问题匹配,将查询提问与转换文档及数据库进行匹配;④对查询结果进行排序处理。中文全文检索是利用自然语言进行标引和检索,它的各个阶段都需要自然语言处理技术的支持。411 文献信息处理

在文献信息处理阶段,采用自然语言处理技术对各种文献源进行分析,提取关键信息,建立索引数据库,在这个阶段对文献分析得越深其未来的潜力越大,数据库的智能也越高。

41111 自然语言标引 自然语言标引是指采用原文中的信息作为标引源,从中选取能够有效表征信息内容的特征词,以实现信息检索系统的最大功能。目前,对网上日益丰富的信息资源的标引多是通过计算机自动标引来实现的,其目的是赋予文献自然语言标引词,以使检索时直接用自然语言词进行匹配查找。①字索引。所谓字索引,就是将文本中的每个汉字(除停用字表中的字)均作为标引词,不加选择判断地进行标引,检索时先匹配单字,再进行词组重组。单汉字标引法避开了语词切分的问题,增强了标引的客观性和一致性,也节省了索引建立的时间;缺点是检索速度较慢、索引存储空间较大、误检率高等。

②词索引。建立词索引数据库时,需要扫描整个文档,并利用自动分词技术对文档中的汉字串进行切分,对切分出来的每一个有效词,计算其在文档中出现的位置和频率,同时将该位置信息和频率的值以及所属文档号加入到词索引库中,建立基于词的倒排索引。其优点是索引存储空间较小、检索速度较快、并能根据词义进行扩检和缩检等;缺点是歧义难以消除。③短语索引。为了提高系统对文献的理解能力,研究者提出了借助词典对文本进行标注并进行句法分析的办法,抽取相邻或相近的词汇,并根据词汇间的关联构成短语索引项,存入短语索引库。与字索引和词索引相比,短语索引更能表达网页中丰富而复杂的概念及其相互关系[5]。

41112 主题词自动抽取 主题词抽取主要是根据文献所论述和研究的具体对象和问题,赋予文献以恰当的主题词,使其有序化而存入检索系统和文献库,它是互联网上信息建库的一项重要工作。目前,主题自动抽取的算法,主要是指综合词频、位置等因素的统计方法。信息提取时通过一定算法得到认为是在文档中比较重要的句子,称之为主题句。在提取主题句的基础上,对主题句进行句法、语义分析,得到主题句内各部分之间的语义关系[6]。41113 文摘自动生成 它是把文档内容从逻辑和语义上进行分析,缩写成有限的可读摘要,标志文章的主题内容,从而有助于用户快速评价检索结果的相关程度。常用的文摘自动生成的方法是基于统计的方法,这种方法的基本思想是,首先对全文进行自动分词,然后统计文章中各个词出现的频率和权重,并按照某种准则确定出关键词,将关键词所在的语句抽取出来,依据各种句子权重指标计算句子综合权重,选出一组最能代表文献主题内容的句子,并对句子进行排序作为文摘句,最后生成文摘[7]。41114 文本自动分类 文本自动分类就是计算机系统自动地根据文本的内容或属性,将大量的用自然语言写成的文本归到一个或多个主题类别的过程,从而使用户能够更加准确地查找所需的信息。文本分类包括自动聚类和自动归类,两者的主要区别就是自动聚类不需要事先定义好分类体系,而自动归类则需要确定好类别体系,并且要为每个类别提供一批预先分好的对象作为训练文集。不管是自动聚类还是自动归类,都需要充分运用自然语言处理技术,如汉语自动分词、词频统计、特征提取、相似度计算、分类算法,等等。因而文本自动分类是自然语言处理

技术的一个重要应用领域。

412 自然语言检索接口

检索接口是连接用户和全文检索系统之间的桥梁,没有一个有效的用户接口,系统的功能就难以充分发挥。目前,在信息爆炸的时代,用户对检索要求越来越高,他们希望系统对各种方式的提问都能有满意的回答。因而,如何让查询用户方便地表达自己的查询需求、如何让计算机“理解”人们检索的真正意图就显得尤为重要。自然语言检索接口正是根据这一需求而产生的,它允许用户以自然语言的方式和机器交互,是一种人性化的智能接口,它的主要功能是接受用户自然语句输入的查询,让系统分析用户的自然语言提问,并通过人机交互推断出其真正需求,使检索结果更全面和准确。其工作原理是:首先对用户的输入查询语句进行分词,识别每个词的词性,提取出关键词,然后从逻辑上进行词法、句法和语义分析,其中句法部分负责生成句法树,语义分析则是根据句法树建立以动词为核心的语义框架,框架的语义格由名词性短语填充。分析过程中还要返回输入中可能出现的错误并通过人机交互纠正,直至建立表示用户提问词之间关系的句法框架,或能在语义层次上表示查询需求的语义结构框架,得到引导检索的检索模板,并以此为基础进行检索[6]。

413 匹配控制

41311 自由词匹配 自由词匹配是将用户提问与索引库中的索引项按照一定的检索模型进行匹配,将一系列包含该自由词页面的URL和摘要按查询相关度返回给用户。自由词匹配是严格的字面匹配,其优点是组配灵活,缺点是容易出现大量的误检和漏检,因而,常常需要在此阶段借助于已有的自然语言资源(如同义/近词表、停用词表等),采用一定的技术和方法进行扩检或缩检,从而提高查全率和查准率。

41312 概念匹配 概念匹配,也叫语义检索,它是从词所表达的概念意义层次上来认识和处理用户的检索请求,匹配在语义上相同、相近、相包含的词语,旨在解决自然语言检索的同一和多义问题。语义检索的基本功能是同义扩展检索和相关概念联想,因为任何概念都不是孤立存在的,它总是与其他概念存在着各种各样的联系。因此,语义检索必须实现语义蕴涵扩展检索和语义外延扩展的检索,而要实现这种扩展检索,就必须信赖于自然语言处理技术的发展,能够对目标文档进行概念抽取、概念聚类而形成概念空间。当用户用自然语言检索时,检索系统会自动地在概念语义空间联想搜寻相似性最高的概念,并根据相似性递减规律列出检索结果[8]。

414 查询结果处理

查询结果处理主要是根据一定的算法计算相关度,然后进行排序,并把与用户查询最为相关的结果排列在前面。为了给用户提供个性化信息服务,常常还要跟踪用户的检索行为,与用户进行交互,并运用语义/语境分析用户的信息需求,将用户的信息需求与文本进行概念匹配,返回给用户所感兴趣的信息。因而自然语言处理能够提高查询结果排序的质量,因为它能更好理解查询的含义与意图以进行更好的文献匹配。

5 基于自然语言处理技术的中文全文检索技术的局限

自然语言检索以其独特的优势越来越引起人们的关注,但目前基于自然语言处理技术的中文全文检索系统的效果仍然是差强人意,这主要体现在以下几个方面:

1)中文自然语言处理技术本身的不完善。自然语言处理是一个涉及计算机科学、语言学、人工智能等多学科的课题,尤其是汉语本身的特点及复杂性。中文信息处理中的许多问题还没有得到彻底解决,如汉语自动分词、语义理解、机器翻译、语音识别等,尤其是自然语言中存在的各种级别的歧义(词汇级别、句法级别和语义级别)难以消除,歧义的存在使计算机在“理解”自然语言时发生了困难,从而导致了词索引库中标引了许多无关的信息。另外,由于不能有效识别新词,致使有的信息没有得到标引,因而自然语言标引的准确性不高。

2)自然语言处理技术在中文全文检索中的应用深度不够。目前,自然语言处理技术在全文检索中使用较多的是词法和句法分析,而在语音、语义和语用方面的应用很少,即对文本和查询仍停留在对语言结构的分析,还没有达到概念语义的层面。因而在分析文本的过程中,系统不能借助上下文语言环境,正确地推断和选择词汇的含义。

3)检索效率不高。检索效率不高具体体现在两个方面:一是返回的信息过多,这是现有中文全文检索系统的普遍现象。输入一项检索请求,往往会返回数以万计的网页信息,其中常常涉及一些无关的信息,却可能漏掉了真正相关的信息。二是返回重复的信息。中文全文检索系统的检索结果中还经常重复出现同一信息源的不同部分,甚至出现不同信息源的相同内容信息。

4)查询方式有限。目前大多数中文全文检索系统的查询方法比较单一,一般只提供分类查询方式和关键词查询方式,无法以几个关键词的结合表示查询者的真实意图。这样查询的结果相关性很差,往往是输入一个检索式,得到一大堆网址,但其中大部分是冗余信息。

6 中文全文检索技术的未来发展方向

未来的中文全文检索技术必定是以提高其系统的查准

率、查全率和查询速度为目标,随着研究的不断深入,未来的中文全文检索将在以下几个方面得到进一步拓展。

1)文献信息的深度处理。高性能的检索需要有效的索引支持,中文全文检索的关键问题之一就在于如何从文档中提取出能最准确、充分地表达文档中与主题相关的词语,以及这些词语在表达文档主题概念时的关系,并将这种关系存储于索引库之中,以支持后继的检索过程。目前,中文信息处理的深度还不十分理想,但随着自然语言处理技术的不断成熟,未来的标引是按照一定的格式,建立词法、句法/语义层次的深度标引,与此同时,文摘自动生成和文本自动分类的准确性将会得到大幅度的提高。

2)自然语言与受控语言进一步融合。为了克服自然语言检索中的各种不利因素,通常通过各种词表对自然语言进行规范控制。词表是信息检索系统中用来反映概念间语义关系的专用词表,词表中的语义关系包括等同关系、属分关系和相关关系,使用词表可以向用户提供检索入口词的同义词、近义词或与检索主题相关的其他词汇,帮助用户选择合适的检索词,确定检索词之间的逻辑关系,方便用户进行扩检和缩检。目前,大多数全文检索系统在这方面的功能还不够完善,未来的工作是完善和编制各类词表,如后控词表、入口词表、同义词表、停用词表等,并运用这些词表对自然语言进行有效的控制。

3)汉语语料库的建设和应用。汉语语料库是自然语言处理技术的研究成果之一,语料中标注的内容包括每个词的词性语义项、短语结构、句型和句间关系等。随着标注程度的加深语料库逐渐熟化,成为一个分布的统计意义上的知识源,利用这个知识源可以进行许多语言分析工作[9],使计算机能从中学到汉语的构成规律,也就增强了计算机自动识别的能力,这对提高中文全文检索的智能化有非常大的帮助。未来对汉语料库的工作包括两个方面:一是充分利用现有的语料库资源,如北京大学计算机语言学研究所的现代汉语标语料库和现代汉语语法信息词典、国家语委的现代汉语语料库以及某些专业领域的语料库等;二是进一步进行语料库的建设,尤其是大规模真实语料库的建设更为需要[10]。

4)匹配机制的进一步优化。信息检索的目的是在信息收藏中查找包含用户所需的信息内容的文档,当前的中文全文检索系统大多采用自由词匹配,还没有实现真正意义上的概念匹配。随着相关技术如语义理解、语境分析、本体论等技术的逐渐成熟,未来的匹配机制将达到真正意义上的概念匹配,匹配在语义上相同、相近、相包含的词语,使检索更接近人的智能程度,以减少误检和漏检。

5)智能化知识检索。智能化知识检索是中文全文检索系统追求的目标,而目前大多数中文全文检索系统的智能化程度不高,相信随着自然语言处理技术研究的不断深入,未来的中文智能检索将具备如下特征:①从内容上真正地理解文献所论述的主题;②能使用适当的知识表示方法来充分体现各主题概念和标识之间的分、属、交叉等复杂关系;③能准确在分析用户用各种方式表达的查询要求,理解用户的真正意图[11];④具有基于内容的相似性检索、自动分类(自动聚类)和自动摘要、以及知识压缩和去重功能;⑤跟踪和分析用户的检索行为,并与用户进行相关反馈,为用户提供个性化信息服务;⑥检索结果自动聚类,提高检索结果的相关度。

7 结束语

自然语言处理技术是中文全文检索的基础,因而,中文全文检索系统的检索效率的提高,依赖于自然语言处理技术的发展,依赖于对汉语的语词结构、句结构、语义等语言知识的深入系统的研究,依赖于对语言与思维的本质的揭示;同时,在很大程度上还寄希望于人工智能技术的突破。□

参考文献

[1]焦玉英,李法运.网络环境下信息检索语言的优化研究

[J].情报学报,2003,22(3):292

[2]黄敏.自然语言处理与信息检索[J].图书情报工作,

2001(4):41

[3]L iddy E.Enhanced text retrieval using natural language p r o2

cessing[OL]ASI S bulletin[EB/OL].htt p://www.sis.

org/Bulletin/Ap r21998/liddy.ht m l

[4]姚佳梅.基于自然语言理解技术的网络检索[J].图书馆

工作与研究,2003(2):42

[5]汤艳莉,赖茂生.Ont ol ogy在自然语言检索中的应用研究

[J].现代图书情报技术,2005(2):34

[6]耿骞,汤艳莉.面向网络信息资源的自然语言检索[J].

情报科学,2004,22(7):848

[7]董建设,任丽,周燕玲.中文自动文摘在搜索引擎中的应

用[J].情报科学,2006,24(2):268

[8]张翠玲.论自然语言检索[J].情报理论与实践,2003

(4):311

[9]钱兵,王永成,高凯.面向搜索引擎的自然语言理解的设

计与实现[J].计算机应用研究,2006(12):2602261 [10]熊回香,夏立新.基于词索引的中文全文检索的关键技术

及其发展方向[J].中国图书馆学报,2007(4):48 [11]张世红,胡佳佳,宋继华.网络环境下的自然语言检索

[J].医学情报工作,2005,(6):436

作者简介:熊回香,女,副教授,硕士生导师。

夏立新,男,教授,博士生导师。

收稿日期:2007-11-23

浅谈自然语言处理

浅谈自然语言处理 摘要 主要阐述了自然语言处理的定义,发展历史,并对其研究内容,以及目前相关领域的应用加以讨论。最后对自然语言处理的未来发展趋势做简单的介绍。 关键词 自然语言处理 Abstract The definition and the development history of Natural Language Processing(NLP) are explained,the research content and the applications in interrelated areas of NLP are discussed.And the develop direction of NLP in the future are simply introduced. Key Words: Natural Language Processing(NLP)

0.引言 早在计算机还未出现之前,英国数学家A.M.Turing便已经预见到未来计算机将会对自然语言处理研究提出新的问题。他指出,在未来我们可以“教机器英语并且说英语。”同时他觉得“这个过程可以仿效教小孩子说话的那种办法进行”。这便是最早关于自然语言处理概念的设想。 人类的逻辑思维以语言为形式,人类的多种智能都与语言有着密切的联系。所以用自然语言与计算机进行通信是计算机出现以来人们一直所追求的目标。 1.什么是然语言处理 美国计算机科学家Bill Manaris(马纳瑞斯)在1999年出版的《计算机进展》(Advances Computers)第47卷的《从人—机交互的角度看自然语言处理》一文中,曾经给自然与然处理提出了如下定义:“自然语言处理可以定义为研究在人与人交际中的语言问题的一门学科。自然语言处理要研制表示语言能力(linguistic competence)和语言应用(linguistic performance)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。”这个定义被广泛的接受,它比较全面的地表达了计算机对自然语言的研究和处理。 简单来说,自然语言处理就是一门研究能实现人鱼计算机之间用自然语言处理进行有效的通信与方法的一门学科,它是计算机科学领域与人工智能领域中的一个重要方向。普遍认为它主要是应用计算机技术,通过可计算的方法对自然语言处理的各级语言单位(字,词,语句,篇章等)进行转换,传输,存储,分析等加工处理的学科,是一门融合了语言学,计算机学,数学等学科于一体的交叉性学科。 互联网技术的发展,极大地推动了信息处理技术的发展,也为信息处理技术不断提出新的需求,语言作为信息的载体,语言处理技术已经日益成为全球信息化和我国社会及经济发展的重要支撑技术。

NLP入门 实战必读:一文教会你最常见的10种自然语言处理技术(附代码)

大数据文摘作品 编译:糖竹子、吴双、钱天培 自然语言处理(NLP)是一种艺术与科学的结合,旨在从文本数据中提取信息。在它的帮助下,我们从文本中提炼出适用于计算机算法的信息。从自动翻译、文本分类到情绪分析,自然语言处理成为所有数据科学家的必备技能之一。 在这篇文章中,你将学习到最常见的10个NL P任务,以及相关资源和代码。

为什么要写这篇文章? 对于处理NL P问题,我也研究了一段时日。这期间我需要翻阅大量资料,通过研究报告,博客和同类NL P问题的赛事内容学习该领域的最新发展成果,并应对NL P处理时遇到的各类状况。 因此,我决定将这些资源集中起来,打造一个对N L P常见任务提供最新相关资源的一站式解决方案。下方是文章中提到的任务列表及相关资源。那就一起开始吧。 目录: 1.词干提取

2.词形还原 3.词向量化 4.词性标注 5.命名实体消岐 6.命名实体识别 7.情感分析 8.文本语义相似分析 9.语种辨识 10.文本总结 1.词干提取 什么是词干提取?词干提取是将词语去除变化或衍生形式,转换为词干或原型形式的过程。词干提取的目标是将相关词语还原为同样的词干,哪怕词干并非词典的词目。例如,英文中: 1.b e a u t i f u l和b e a u t i f u l l y的词干同为b e a u t i 2.G o o d,b e t t e r和b e s t的词干分别为g o o d,b e t t e r和b e s t。 相关论文:M a r t i n P o r t e r的波特词干算法原文

相关算法:在P yt h o n上可以使用P o r t e r2词干算法 (h t t p s://t a r t a r u s.o r g/m a r t i n/P o r t e r S t e m m e r/d e f.t xt) 程序实现:这里给出了在p yt h o n的s t e mm i n g库中使用 (https://https://www.sodocs.net/doc/459875057.html,/mchaput/stemming/src/5c242aa592a6 d4f0e9a0b2e1afdca4fd757b8e8a/stemming/porter2.py?at=d efault&fileviewer=file-view-default) P o r t e r2算法做词干提取的代码: #!pip install stemmingfrom stemming.porter2 import stem stem("casually") 2.词形还原 什么是词形还原?词形还原是将一组词语还原为词源或词典的词目形式的过程。还原过程考虑到了P O S问题,即词语在句中的语义,词语对相邻语句的语义等。例如,英语中: 1.b e a u t i f u l和b e a u t i f u l l y被分别还原为b e a u t i f u l和b e a u t i f u l l y。 2.g o o d,b e t t e r和b e st被分别还原为g o o d,g o o d和g o o d 相关论文1:这篇文章详细讨论了词形还原的不同方法。想要了解传统词形还原的工作原理必读。(h t t p://www.i j r a t.o r g/d o wn l o a d s/i c a t e st2015/I CA TE S T-2015127.p d f)

概率论在自然语言处理中的应用

概率论在自然语言处理中的应用 twd2 2017年5月4日 当下,人工智能是热议话题。人工智能中,有一个方向叫做自然语言处理。 而在自然语言处理方面,有两个经典的问题:光学字符识别(奏奃奒)和拼音输 入法。它们都可以用概率的方法解决,本文就尝试讨论这个话题。 光学字符识别问题所谓光学字符识别(奏奃奒),就是给定一幅图片,让计算 机程序识别出来图片中的文字。这涉及到图像匹配、模式识别等算法,但本文 不关注于此,本文关注的是后处理的过程。 首先,对于一个字符的识别,识别结果就可能有多种,每一个结果都有一 个置信度。所谓后处理过程,就是对于已经识别出来的字串(字串每个字都有 多种可能选项),选择“最佳”的组合。这和下文讨论的拼音输入法十分类似,所以本文的重点放在对于拼音输入法的讨论。 拼音输入法问题拼音输入法,指的是一个程序,它接受用户输入的拼音串(比如“奱奩奮奧奨奵奡奤奡奸奵奥奪奩女奵奡奮奪奩奫奥奸奵奥她奵奪奩女奨奵奸奩”),根据内部数据,将这 个拼音串转换为文字串输出(对于上面的例子就是“清华大学计算机科学与技 术系”)。 对于输入拼音串的每一个拼音(上面例子中的“奱奩奮奧”、“奨奵奡”、“奤奡”、“奸奵奥”等),可以简单直接地查询字典来获得该拼音对应的所有可能的字,然后选择“最佳”的组合,认为是该拼音串对应的句子: 请清氢··· 画话华··· 大打答··· 学雪血··· ··· “最佳”的不同的定义方法,对应着寻找最佳组合的不同算法。这里,我讨论 一个简单的二元字模型或字的二元模型。我理解中,字的二元模型就是将句子 失

中相邻的两个字作为一组,后一个字出现的概率只和前面一个字出现的情况有关。这能够极大地简化相关算法设计、提高算法速度,但是准确度也会因此受到不良影响。 对于任意一个句子S ,如果记其长度n |S |,并且记S 夽w 1w 2···w n ,w i ∈W 夨i 夽失,夲,...,n 天为字符集W 中的一个字符,那么,其出现的概率P 夨S 天可以表示成: P 夨S 天夽 P 夨w 1天·P 夨w 2|w 1天·····P 夨w n |w 1w 2···w n ?1天夽n i =1 P 夨w i |w 1w 2···w i ?1天 其中,P 夨w i 天夨i 夽失,夲,...,n 天为w i 出现的概率。 在字的二元模型下,这个表达式可以进一步简化成: P 夨S 天≈ n i =1P 夨w i |w i ?1天再由条件概率的定义及大数定律, P 夨w i |w i ?1天夽P 夨w i ?1w i 天P 夨w i ?1天夽P 夨w i ?1w i 天count 夨?天P 夨w i ?1天count 夨?天≈count 夨w i ?1w i 天count 夨w i ?1天 其中,count 夨w 天夽w 出现的次数,并且count 夨?天 w ∈W count 夨w 天,表示字和字的二元组出现次数总和。它们都可以由语料统计得到。于是, P 夨S 天≈ n i =1count 夨w i ?1w i 天count 夨w i ?1天 这就是一个句子出现概率的算法。记W 夨y 天夽{拼音y 对应的所有字}?W ,不妨认为其中的元素按照某种顺序排好序。这样,给定一个包含m 个拼音的拼音串y 1y 2···y m ,如“奱奩奮奧奨奵奡奤奡奸奵奥”,可以枚举每一个可能的句子S ∈ m i =1W 夨y i 天夽{请,清,氢,...}×{画,话,华,...}×{大,打,答,...}×{学,雪,血,...},计算P 夨S 天,然后认为P 夨S 天最大的S 就是这个拼音串对应的句子,即对y 1y 2···y m 求出 奡奲奧奭奡奸S ∈ m i =1W (y i ) {P 夨S 天}实现上有几个问题:精度问题、平滑问题以及速度问题。 夲

自然语言处理

自然语言处理 自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、 计算机科学、数学于一体的科学。 因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,包括中文、英文、俄 文、日文、德文、法文等等,所以它与语言学的研究有着密切的联系,但又有重要的区别。 自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机 系统,特别是其中的软件系统。因而它是计算机科学的一部分。 语言是人类区别其他动物的本质特性。在所有生物中,只有人类才具有语言能力。人类 的多种智能都与语言有着密切的关系。人类的逻辑思维以语言为形式,人类的绝大部分知识 也是以语言文字的形式记载和流传下来的。因而,它也是人工智能的一个重要,甚至核心部 分。 用自然语言与计算机进行通信,这是人们长期以来所追求的。因为它既有明显的实际意 义,同时也有重要的理论意义:人们可以用自己最习惯的语言来使用计算机,而无需再花大

量的时间和精力去学习不很自然和习惯的各种计算机语言;人们也可通过它进一步了解人类 的语言能力和智能的机制。 实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义,也能以自然 语言文本来表达给定的意图、思想等。前者称为自然语言理解,后者称为自然语言生成。因 此,自然语言处理大体包括了自然语言理解和自然语言生成两个部分。历史上对自然语言理 解研究得较多,而对自然语言生成研究得较少。但这种状况近年来已有所改变。 无论实现自然语言理解,还是自然语言生成,都远不如人们原来想象的那么简单,而是 十分困难的。从目前的理论和技术现状看,通用的、高质量的自然语言处理系统,仍然是较 长期的努力目标,但是针对一定应用,具有相当自然语言处理能力的实用系统已经出现,有 些已商品化,甚至开始产业化。典型的例子有:多语种数据库和专家系统的自然语言接口、 各种机器翻译系统、全文信息检索系统、自动文摘系统等。 自然语言处理,即实现人机间自然语言通信,或实现自然语言理解和自然语言生成是十 分困难的。造成困难的根本原因是自然语言文本和对话的各个层次上广泛存在的各种各样的

北京大学自然语言处理

语言信息工程系与自然语言处理 自然语言处理做什么? 首先,让我们从那些比较实用的方面来看看什么是自然语言处理。一般来说,所有那些和语言相关的数据,以及处理它的计算机程序,都是我们研究的内容。现在,个人计算机和网络已经进入我们日常的生活,我们用它们做文书处理,收发电子邮件,看新闻,搜索资料,…,所有这些,我们看到的、输入的和存贮的都用到了至少一种自然语言,比如说,中文或者是英文。 自然语言处理技术,简单来说就是实现那些与语言处理相关的特定任务的程序,举例来说,它们可能是: 支持文本处理:例如,智能文字输入,查找拼写错误,寻找与改正病句等; 写作支持:帮助作者寻找合适的语言表达方法,甚至文体风格,至少也能帮助用户使用最正确的术语表达形式; 辅助翻译:从一种语言翻译为另一种语言,或多种语言,未来的目标是全自动化高正确率的翻译,虽然达到这个目标的路很艰辛; 改进信息组织与管理:文献主题标引、关键词标引,文本分类、聚类,自动文摘,模板式信息提取等等。由此,我们可以更有效地利用信息和知识; 信息检索,除了研制更强大更准确的搜索引擎之外,也有相当多的研究关注如何检索到更深层次的东西,例如试图分析与理解被检索文档的语义内容等; 辅助语言学习,如果现在我们还不用计算机以及有效的语言学方法来帮助我们学习语言,无论是母语还是外语,那是不可思议的。事实上,自然语言处理在语言教学领域已经开始大展身手了… 所有这些问题我们要能有完美的解决,显然不只是应用计算机科学与技术的技艺。更进一步说,我们要透彻理解和把握自然语言的自身特性。自然语言处理横跨计算机科学和语言学,相应的数学和逻辑基础也很重要。 从抽象化的理论层面看自然语言处理,则更加微妙。计算机只是操纵符号运算的自动机器。语言是符号的集合和系统,尽管自然语言包含了极其复杂的符号以及运用的规则。自然语言处理技术扩展了传统语言学研究的视野和方法,让

自然语言处理技术在中文全文检索中的应用

3本文为国家社会科学基金项目“基于中文X ML 文档的全文检索研究”的成果之一,项目编号:04CT Q005。 ●熊回香,夏立新(华中师范大学 信息管理系,湖北 武汉 430079) 自然语言处理技术在中文全文检索中的应用 3 摘 要:自然语言处理技术是中文全文检索的基础。首先介绍了全文检索技术及自然语言处理技术,接着详细地阐述了自然语言处理技术在中文全文检索中的应用,并对目前基于自然语言处理技术的中文全 文检索技术的局限性进行了分析,探讨了中文全文检索技术的未来发展方向。 关键词:自然语言处理;全文检索;智能检索 Abstract:Natural language p r ocessing technol ogy is the basis of Chinese full 2text retrieval .This paper firstly intr oduces the full 2text retrieval technol ogy and natural language p r ocessing technol ogy .Then,it gives a detailed 2descri p ti on of the app licati on of natural language p r ocessing technol ogy in Chinese full 2text retrieval .The p resent li m itati ons of the Chinese full 2text retrieval system based on natural language p r ocessing technol ogy is als o ana 2lyzed .Finally,the paper exp l ores the devel opment trend of Chinese full 2text retrieval technol ogy in future . Keywords:natural language p r ocessing;full text retrieval;intelligent retrieval 随着社会网络化、信息化程度的日益提高,网上信息呈指数级剧增,人们越来越强烈地希望用自然语言同计算机交流,并能方便、快捷、准确地从互联网上获得有价值的信息,因此,自然语言处理技术和中文全文检索技术成为当今计算机科界、语言学界、情报学界共同关注的课题,并共同致力于将自然语言处理技术的研究成果充分运用到全文检索中,从而促进了全文检索技术的发展。 1 全文检索技术 全文检索是一种面向全文和提供全文的检索技术,其核心技术是将文档中所有基本元素的出现信息记录到索引库中,检索时允许用户采用自然语言表达其检索需求,并借助截词、邻词等匹配方法直接查阅文献原文信息,最后将检索结果按相关度排序返回给用户。因而索引数据库的建立是全文检索系统实现的基础,它以特定的结构存储了数据资源的全文信息,从而为全文检索系统提供可检索的数据对象。在中文全文检索系统中,建立索引库的前提是运用自然语言处理技术对中文信息进行基于词(字)、句、段落等更深层次的处理。 2 自然语言处理技术 自然语言是指作者所使用的书面用语,在信息检索中包括关键词、自由词和出现在文献题名、摘要、正文或参 考文献中的具有一定实质意义的词语[1]。自然语言处理 (Natural Language Pr ocessing,NLP )是语言信息处理的一 个重要分支,在我国就是中文信息处理。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,具体来说就是用计算机对包括汉语(字)的形、音、义等信息及词、句子、篇章的输入、输出、存储和识别、分析、理解、生成等多方面的加工处理[2]。由于自然语言处理侧重于词、句子、篇章,因而词法分析、句法分析、语义分析、语用分析、语境分析便构成了自然语言处理研究内容的基础部分。 211 词法分析 词法分析包括词形和词汇两个层次,其中词形主要是对各种词形和词的可识别部分的处理。如前缀、后缀及复合词的分析;词汇的重点在于复合对词操作和词汇系统的控制。其主要目的是有助于确认词性以及做到部分理解词与词、词与文档之间的关系,提高检索的效率。由于计算机内部存储的中文信息没有明显的词与词之间的分隔符,因此,在中文全文检索系统中,词法分析首要任务之一是对文本信息进行词语切分,即汉语自动分词,汉语自动分词是中文信息处理中的关键技术,也是中文全文检索的瓶颈,只有对汉语词进行正确的切分后,才能准确地提取文献的特征信息,对文献进行正确标引,才能正确分析用户的查询意图,为用户提供准确的信息服务。 212 句法分析 句法分析是对句子中词汇短语进行分析以便揭示句子的语法结构。目的是通过对句型结构的分析,自动抽取复

自然语言处理的关键技术

自然语言处理的关键技术 自然语言处理技术是所有与自然语言的计算机处理有关的技术的统称,其目的是使计算机理解和接受人类用自然语言输入的指令,完成从一种语言到另一种语言的翻译功能。自然语言处理技术的研究,可以丰富计算机知识处理的研究内容,推动人工智能技术的发展。下面我们就来了解和分析自然语言处理的关键技术。 一、常用技术分类 1、模式匹配技术 模式匹配技术主要是计算机将输入的语言内容与其内已设定的单词模式与输入表达式之间的相匹配的技术。例如计算机的辅导答疑系统,当用户输入的问题在计算机的答疑库里找到相匹配的答案时,就会完成自动回答问题的功能。但是不能总是保证用户输入的问题能得到相应的回答,于是很快这种简单匹配式答疑系统有了改进。答疑库中增加了同义词和反义词,当用户输入关键词的同义词或反义词时,计算机同样能完成答疑,这种改进后的系统被称为模糊匹配式答疑系统。 2、语法驱动的分析技术

语法驱动的分析技术是指通过语法规则,如词形词性、句子成分等规则,将输入的自然语言转化为相应的语法结构的一种技术。这种分析技术可分为上下文无关文法、转换文法、ATN文法。上下文无关文法是最简单并且应用最为广泛的语法,其规则产生的语法分析树可以翻译大多数自然语言,但由于其处理的词句无关上下文,所以对于某些自然语言的分析是不合适的。转换文法克服了上下文无关文法中存在的一些缺点,其能够利用转换规则重新安排分析树的结构,即能形成句子的表层结构,又能分析句子的深层结构。但其具有较大的不确定性。ATN文法扩充了转移网络,比其他语法加入了测试集合和寄存器,它比转移文法更能准确地分析输入的自然语言,但也具有复杂性、脆弱性、低效性等缺点。3、语义文法 语义文法的分析原理与语法驱动相似,但其具有更大的优越性。语义文法中是对句子的语法和语义的共同分析,能够解决语法驱动分析中单一对语法分析带来的不足。它能够根据句子的语义,将输入的自然语言更通顺地表达出来,除去一些语法正确但不合语义的翻译。但是语义文法分析仍然有不容忽视的缺点,其分析的语句中有时会出现不合语法的现象,并且这类分析较为复杂,语义类难以确定,语义的规则太多……因此,语义文法技术仍需要改进措施。 4、格框架约束分析技术

自然语言处理在现实生活中运用

自然语言处理在现实生活中运用 1 需求分析与描述: 首先谈下这款软件的来源和用途吧,本科至今没有挂科记录,很不幸第一次《英语学位英语考试》挂科了。于是,笔者开始疯狂的做题和背单词,对于GET真题很多单词不认识,抱着有道词典,逐字翻译耗时耗力。再说历来10余年试题考试单词范围是一定的,把出现频率高的单词,所谓核心单词掌握了不就事倍功半了?问题来了,不像四六级词汇或者考研词汇市场有专门卖的。当时就开始设想,如果我收集10余年真题,然后去除所有非单词结构(真题算是结构化数据,有一定规则,比较容易处理。此过程其实就是数据清洗过程)最后把所有单词集中汇总,再去除如:a/an/of/on/frist等停用词(中文文本处理也需要对停用词处理,诸如:的,地,是等)。处理好的单词进行去重和词频统计,最后再利用网络工具对英语翻译。然后根据词频排序。基于以上思路,结合笔者前不久对数据挖掘中分类实现的经验和暑假学习的统计学知识最终上周末(10.31—11.1)花了2天时间搞定,这些自然语言处理的基础方法在分类,聚类等数据挖掘和本体领域构建中都有使用。最后我将其核心方法进行梳理,下面咱们具体展开。 2 自然语言处理结果预览: 前面提到本算法是对自然语言中常规英文试卷的处理,那么开始收集原始数据吧。 1 历年(2002—2010年)GET考试真题,文档格式不一,包括txt/pdf/word等如下图: 2 对所有格式不一的文档进行统计处理成txt文档,格式化(去除汉字/标点/空格等非英文单词)和去除停用词(去除891个停用词)处理后结果如下:【17套试卷原始单词(含重复)82158个,数据清洗处理后32011个】 3 对清洗后的单词进行去重和词频统计:【去重后7895个单词尺寸】 4 显示这10余年考试的词汇量还是很大的,加上停用词,考查词汇量在9000左右,那么常考的应该没那么多。试想下17套试卷中,去除停用词后出现频率大于5的和小于25次【1674个单词】的数据应该是合理的,那么我就指定阈值提取。 5 最后一步,中英文翻译(目前通过google工具快速查询,然后合并)。最终效果如下:(处理的最终txt结果和自己word整理的结果)

自然语言处理技术分享1

内容大概分为:自然语言处理的简介、关键技术、流程及应用。 首先,介绍一下什么是自然语言处理(也叫自然语言理解): 语言学家刘涌泉在《大百科全书》(2002)中对自然语言处理的定义为:“自然语言处理是人工智能领域的主要内容,即利用电子计算机等工具对人类所特有的语言信息(包括口语信息和文字信息)进行各种加工,并建立各种类型的人-机-人系统,自然语言理解是其核心,其中包括语音和语符的自动识别以及语音的自动合成。” 从微观上讲,自然语言理解是指从自然语言到机器(计算机系统)内部之间的一种映射。 从宏观上看,自然语言理解是指机器能够执行人类所期望的某些语言功能。这些功能包括: ①回答有关提问;计算机正确地回答用自然语言输入的有关问题 ②提取材料摘要;机器能产生输入文本的摘要 ③同词语叙述;机器能用不同的词语和句型来复述输入的自然语言信息 ④不同语言翻译。机器能把一种语言翻译成另外一种语言 自然语言处理的关键技术 自然语言处理的关键技术包括:词法分析、句法分析、语义分析、语用分析和语句分析。 1.词法分析 词法分析的主要目的是从句子中切分出单词,找出词汇的各个词素,并确定其词义。 词法分析包括词形和词汇两个方面。一般来讲,词形主要表现在对单词的前缀、后缀等的分析,而词汇则表现在对整个词汇系统的控制。在中文全文检索系统中,词法分析主要表现在对汉语信息进行词语切分,即汉语自动分词技术。通过这种技术能够比较准确的分析用户输入信息的特征,从而完成准确的搜索过程。它是中文全文检索技术的重要发展方向。 不同的语言对词法分析有不同的要求,例如英语和汉语就有较大的差距 汉语中的每个字就是一个词素,所以要找出各个词素是相当容易的,但要切分出各个词就非常难。 如”我们研究所有东西“,可以是“我们——研究所——有——东西”也可是“我们——研究——所有——东西”。

自然语言处理大纲

课程编号:S0300010Q 课程名称:自然语言处理 开课院系:计算机科学与技术学院任课教师:关毅刘秉权 先修课程:概率论与数理统计适用学科范围:计算机科学与技术 学时:40 学分:2 开课学期:秋季开课形式:课堂讲授 课程目的和基本要求: 本课程属于计算机科学与技术学科硕士研究生学科专业课。计算机自然语言处理是用计算机通过可计算的方法对自然语言的各级语言单位进行转换、传输、存贮、分析等加工处理的科学。是一门与语言学、计算机科学、数学、心理学、信息论、声学相联系的交叉性学科。通过本课程的学习,使学生掌握自然语言(特别是中文语言)处理技术(特别是基于统计的语言处理技术)的基本概念、基本原理和主要方法,了解当前国际国内语言处理技术的发展概貌,接触语言处理技术的前沿课题,具备运用基本原理和主要方法解决科研工作中出现的实际问题的能力。为学生开展相关领域(如网络信息处理、机器翻译、语音识别)的研究奠定基础。 课程主要内容: 本课程全面阐述了自然语言处理技术的基本原理、实用方法和主要应用,在课程内容的安排上,既借鉴了国外学者在计算语言学领域里的最新成就,又阐明了中文语言处理技术的特殊规律,还包括了授课人的实践经验和体会。 1 自然语言处理技术概论(2学时) 自然语言处理技术理性主义和经验主义的技术路线;自然语言处理技术的发展概况及主要困难;本学科主要科目;本课程的重点与难点。 2 自然语言处理技术的数学基础(4学时) 基于统计的自然语言处理技术的数学基础:概率论和信息论的基本概念及其在语言处理技术中的应用。如何处理文本文件和二进制文件,包括如何对文本形式的语料文件进行属性标注;如何处理成批的文件等实践内容 3 自然语言处理技术的语言学基础(4学时) 汉语的基本特点;汉语的语法功能分类体系;汉语句法分析的特殊性;基于规则的语言处理方法。ASCII字符集、ASCII扩展集、汉字字符集、汉字编码等基础知识。 4 分词与频度统计(4学时) 中文分词技术的发展概貌;主要的分词算法;中文分词技术的主要难点:切分歧义的基本概念与处理方法和未登录词的处理方法;中外人名、地名、机构名的自

成果篇 —— 自然语言处理与数据挖掘研究的两个应用成果

自然语言处理与数据挖掘研究的应用 唐杰李涓子 清华大学计算机系知识工程研究室 清华大学计算机系知识工程研究室研究方向为网络环境下的知识工程,研究室融合自然语言处理、社会网络分析与挖掘和语义Web技术,研究Web信息处理的基础理论和关键技术。研究者社会网络挖 掘与搜索系统ArnetMiner II和面向事件的新闻挖掘与搜索系统Newsminer是实验室应用多年的研究 成果建立的在学术研究和新闻领域的应用系统。 一、研究者社会网络的挖掘与搜索系统 ArnetMiner II(简称AMiner, https://www.sodocs.net/doc/459875057.html,)是通过研究者合作关系建立起来的社会网络挖掘与搜索系统。系统采用自然语言处理和社会网络分析与挖掘技术,提供研究者语义信息抽取、面向话题的专家搜索、权威机构搜索、话题发现和趋势分析、基于话题的社会影响力分析、研究者社会网络关系识别、即时社会关系图搜索、研究者能力图谱、审稿人推荐在内的众多功能,能够为研究者提供更全面的领域知识和更具针对性的研究话题和合作者信息,为科研的更好发展提供服务。 (a) 专家搜索。(b) 会议分析。

搜索数据挖掘领域专家、权威机构和相关学术论文。用户可以个性化的定制搜索结构。近10年国际会议SIGIR引用次数最高的100篇文章在各年的分布,作者国籍(原籍)分布等。 图 1:系统部分功能截图(https://www.sodocs.net/doc/459875057.html,) 图1举例列举了AMiner系统的两个功能:(a) 专家搜索和 (b) 会议分析。其中在专家搜索中,用户输入查询词(例如:data mining),系统返回该领域专家、重要的国际会议和权威期刊或者权威机构以及相关学术论文。在该搜索中,用户还可以个性化的定制返回结果。在会议分析功能中,用户可以查看指定国际期刊或者国际会议近年引用次数最高的文章在各年的分布、作者国籍(原籍)分布、以及引用次数最高的作者排序情况等。 目前AMiner系统共收录103万研究者、314万篇论文信息和8,046多个会议信息,累积数据规模已经达到2.35 TB,系统在线运行7年多以来,吸引了220个国家2,766,356个独立IP的访问。吸引了218个国家210万个独立IP的访问(>1亿3千460万访问日志),访问量还在以每月平均20%左右的速度增长。并且,系统API还得到全球最大出版社Elsevier和KDD’10-’12, PKDD’11, ICDM’11, WSDM’11, ISWC’10等20余个重要国际会议进行论文-审稿人自动分发和提供语义信息服务。同时,ArnetMiner系统为社会网络挖掘的科学研究提供大量科研数据,已成为学术搜索和社会网络挖掘研究的实验平台。 二、面向事件的新闻挖掘与搜索 NewsMiner(https://www.sodocs.net/doc/459875057.html,)是一个采用中文信息处理和文本挖掘技术实现的面向事件的新闻挖掘与搜索系统。系统从新闻本身的特点(5W1H)出发,以事件为核心,利用话题分析与知识关 联技术,从事件、话题、实体三个层面组织新闻,为用户提供一个更深入、更便捷的新闻事件理解和 搜索服务。NewsMiner包含4个组件: 1.数据采集:数据采集是从互联网上获取新闻事件相关数据并进行结构化处理的组件,为系统 提供数据保障。新闻相关数据包括新闻专题报道、用户生成内容和大规模知识库,目前主要 从新闻门户专题网站和百度热搜词获取新闻事件报道新闻、从微博和天涯等论坛获得新闻相 关的用户生成内容并抓取百度百科、互动百科和Wiki等公共的大规模知识库。 2.新闻挖掘:新闻挖掘是NewsMiner中核心组件,为系统提供面向事件的新闻分析和挖掘算法。 主要包括实体识别与抽取、事件话题模型与分析、以及知识链接。实体识别与抽取是从新闻 文档识别命名实体(人物、地点、组织机构和时间)的过程,回答Who、Where和When的问 题;话题建模与分析是通过话题模型发现同一事件下的隐含话题,并通过概率分布分析事件、话题和实体之间关系,是发现媒体和用户关注点的过程;知识链接是将新闻事件和实体和外

自然语言处理的应用及发展趋势

自然语言处理的应用及发展趋势 摘要本文主要阐述了自然语言处理的研究内容,以及对目前相关领域的应用加以讨论。自然语言处理的研究内容主要有四大块[1-2]:语言学方向、数据处理方向、人工智能和认知科学方向、语言工程方向。最后对自然语言处理的未来发展趋势做简单的介绍。 关键词自然语言处理应用发展趋势 一.自然语言处理的研究内容 自然语言处理的范围涉及众多方面,如语音的自动识别与合成,机器翻译,自然语言理解,人机对话,信息检索,文本分类,自动文摘,等等。我们认为,这些部门可以归纳为如下四个大的方向: (1)语言学方向 本方向是把自然语言处理作为语言学的分时来研究,它之研究语言及语言处理与计算相关的方面,而不管其在计算机上的具体实现。这个方向最重要的研究领域是语法形式化理论和数学理论。 (2)数据处理方向 是把自然语言处理作为开发语言研究相关程序以及语言数据处理的学科来研究。这一方向早起的研究有属于数据库的建设、各种机器可读的电子词典的开发,近些年来则有大规模的语料库的涌现。 (3)人工智能和认知科学方向 在这个方向中,自然语言处理被作为在计算机上实现自然语言能力的学科来研究,探索自然语言理解的只能机制和认知机制。这一方向的研究与人工智能以及认知科学关系密切。 (4)语言工程方向 主要是把自然语言处理作为面向实践的、工程化的语言软件开发来研究,这一方向的研究一般称为“人类语言技术”或者“语言工程”。 二.自然语言处理的应用 以上所提及的自然语言处理的四大研究方向基本上涵盖了当今自然语言处理研究的内容,更加细致的说,自然语言处理可以进一步细化为以下13项研究内容,也即为自然语言处理的应用方向,这13个应用方向分别是[3]:口语输入、

自然语言处理中英文术语对照

abbreviation 缩写 [省略语] ablative 夺格(的) abrupt 突发音 accent 口音/{Phonetics}重音 accusative 受格(的) acoustic phonetics 声学语音学 acquisition 习得 action verb 动作动词 active 主动语态 active chart parser 活动图句法剖析程序 active knowledge 主动知识 active verb 主动动词 actor-action-goal 施事(者)-动作-目标 actualization 实现(化) acute 锐音 address 地址{信息科学}/称呼(语){语言学} adequacy 妥善性 adjacency pair 邻对 adjective 形容词 adjunct 附加语 [附加修饰语] adjunction 加接 adverb 副词 adverbial idiom 副词词组 affective 影响的 affirmative 肯定(的;式) affix 词缀 affixation 加缀 affricate 塞擦音 agent 施事 agentive-action verb 施事动作动词 agglutinative 胶着(性) agreement 对谐 AI (artificial intelligence) 人工智能 [人工智能] AI language 人工智能语言 [人工智能语言] Algebraic Linguistics 代数语言学 algorithm 算法 [算法] alienable 可分割的 alignment 对照 [多国语言文章词;词组;句子翻译的] allo- 同位-

深度学习在自然语言处理中的应用

电脑编程技巧与维护 自然语言处理的主要目标是让人类语言能够更容易被计算机识别、操作,其主要应用包括信息抽取、机器翻译、摘要、搜索及人机交互等。传统的自然语言处理,不管是英文还是中文,仍然选择分而治之的方法,把应用分解成多个子任务来发展和分析自然语言处理,很少能够发展一个统计的架构,并且为了更好地提高性能,从而导致需要加入大量为特定任务指定的人工信息。从这点来说,大多数系统主要有这样的几个缺点:首先这些系统是浅层结构,并且分类器是线性的;其次为了一个线性分类器有更好的性能,系统必须融入大量为特定任务指定的人工特征;最后这些系统往往丢弃那些从其他任务学来的特征。 从2006年开始,研究者们开始利用深层神经网络在大规模无标注语料上无监督的为每个词学到了一个分布式表示,形式上把每个单词表示成一个固定维数的向量,当作词的底层特征。在此特征基础上,Collobert&Weston完成了词性标注、命名实体识别和语义角色标注等多个任务[4],Richard Socher等人则利用递归神经网络完成了句法分析、情感分析和句子表示等多个任务,这也为语言表示提供了新的思路[6-10]。 主要介绍在自然语言处理领域进行深度学习的基本动机,主要模型和学习算法。首先介绍为什么要在自然语言处理中采用深度学习及主要的神经网络语言模型;在此基础上,如何学习一个单词的表示,并分别阐述深度学习在句法分析和语义分析等相关任务中的主要算法。 1深度学习的基本动机 从生物学角度来说,人类大脑本身就是一个层次结构,就是一个深层结构。例如,通过大脑皮层的充分研究,一个给定的输入信号进行多层次的抽象表示,每个层次对应着不同区域的皮质。层次结构中的每个级别代表在不同的抽象层次的输入,用较低级别的特征进一步定义更抽象的层次结构中的功能。人类感知系统这种明确的层次结构表明,极大地降低了视觉系统处理的数据量,并保留了物体有用的结构信息。对于要提取具有潜在复杂结构规则的自然图像、视频、语音等结构丰富的数据,深度学习能够获取其本质特征。 另外认知过程本身就是一个深层结构。人类按照层次的方式组织观点和概念;人类首先学习比较简单的概念,然后组成更抽象的概念;工程人员按照层次把解决方案分解成多个概念和处理过程。反过来语言表征也同样是一个稀疏表示,把所有的词汇中一部分用于表示相应的概念,例如描述一个场景,只需要极少的一部分词汇,和大脑提取数据的方式是相似的。 受到大脑层次结构的神经启发,神经网络的研究人员花费10多年时间去训练一个多层次的神经网络,但在2006年前的所有尝试都失败了,得到的最好结果只得到了2到3层的结构,即只包含1到2个隐藏层表示,如果继续训练,反而得到一个更差的结果。直到2006年才有了重大突破。多伦多大学的Hiton介绍了深度信念网络以及利用无监督的方法[1],每次训练一层的贪心学习算法。随后基于Auto-encoders的算法被提出[2],并且采取相似的方法,即采用无监督的方法进行中间表示,并且每次训练一层。近年来采取相似的方法的算法越来越多地被提出,但主要的原则均为:(1)每一层采用无监督方法学习表征;(2)在上次训练的基础上,采用无监督的方法每次训练一层,并把训练结果作为下一层的输入; 作者简介:翟剑锋,男,本科,讲师,研究方向:机器学习、自然语言处理及认知计算。 收稿日期:2013-06-11 深度学习在自然语言处理中的应用 翟剑锋 (中国青年政治学院计算机中心,北京100089) 摘要:深度学习是一类新兴的多层神经网络学习算法。介绍自然语言处理中采用深度学习的动机及主要的神经网络语言模型。在此基础上,学习一个单词的分布式表示,并分别阐述深度学习在句法分析和语义分析等相关任务中的主要算法,总结了存在的问题及深度学习在中文信息处理的发展方向。 关键词:深度学习;自然语言处理;分布式表示 Application of Deep Learning in NLP ZHAI Jian-feng (Computer Center,China Youth University for Political Science,Beijing100089,China) Abstract:Deep learning is a new way of training multi-layer neural network.The paper discussed the motivation of deep learning in natural language processing and the major neural network language model,on the base of which,how to learn a distributed representation of word,and introduce the main algorithms of deep learning in syntactic and semantic analysis etc. It concluded the problems remaining and development orientation in Chinese Information Processing Key words:Deep Learning;NLP;Distributed Representation 74 2013.18

2160258 自然语言处理与信息检索(中英文)(2011)

天津大学《自然语言处理与信息检索》课程教学大纲 课程编号:2160258 课程名称:自然语言处理与信息检索 学 时: 32 学 分: 1.5 学时分配: 授课:16学时上机:16学时 授课学院: 计算机科学与技术学院 适用专业: 计算机、语言学专业本科生或研究生 先修课程: 统计学、面向对象程序设计、人工智能或机器学习的相关知识 一.课程的性质与目的 自然语言处理技术是自动人机交互、搜索引擎、机器翻译、信息抽取等应用的重要支撑技术。本课程将系统地介绍自然语言处理(NLP)的基本概念、常用的算法和重要的应用。在基本概念和算法上,将介绍词汇、句法、语义分析等的基本知识。贯穿其中,将重点介绍统计自然语言处理的关键算法,主要是在大规模语料库的支持下,统计语言模型在语言知识自动学习中的应用。在应用方面,将结合文本分类和聚类、机器翻译、信息检索、网络挖掘等进一步加深学生对自然语言处理系统的设计策略和实现技术的了解。 二.教学基本要求 了解和掌握自然语言处理的基本理论基础,包括统计学和语言学基础,词汇、语法和语义的相关概念及算法,以及自然语言处理的理论和方法在文本自动分类、聚类、信息检索和机器翻译等方面的应用。 三.教学内容 课程的基本内容包括:(1)自然语言处理的数学基础,如贝叶斯模型、噪声信道模型、熵和互信息等的概念、n元语法模型和HMM模型等,同时介绍这些模型在具体实践中的应用;(2)自然语言处理的语言学基础,介绍有关词法和语法等方面的知识,包括词语搭配、语义消歧、概率句法分析等内容;(3)自然语言处理的应用,如文本分类和聚类、信息检索、统计机器翻译、互联网信息挖掘。

课堂讲座(26学时) 第一章绪论 介绍自然语言处理的相关概念,使学生有一感性认识;同时说明自然语言处理中的不同方法论。 第二章 统计学基础 统计学基础知识,包括贝叶斯模型、噪声信道模型,熵、交叉熵和互信息等的概念。 第三章 语言学基础 介绍有关词性、句法、语法和语义等方面的语言学知识;基于语料库的统计自然语言处理,包括语料获取和标注以及应用等。 第四章 词语搭配 如何鉴定相邻或非相邻词语之间组合强度,即如何识别有意义的短语结构。第五章 n元语法模型 n元语法模型的建模和应用。 第六章 语义消歧 有监督和无监督的语义消歧。 第七章 隐马尔可夫模型与词性标注 有关隐马尔可夫模型的建模、算法及其在词性标注中的应用。 第八章 概率句法分析 上下文无关文法(CFG)、概率上下文无关文法(PCFG)、句法分析树等概念;基于概率的最佳句法分析树的确定;滨州树库;改进PCFG的方法。 第九章 文本分类和聚类 文本分类和聚类的算法介绍。 第十章 信息检索与挖掘 有关信息检索、信息挖掘的模型和理论。 第十一章统计机器翻译 基于统计的机器翻译的概念、方法、模型和应用等。 实验(6个学时) 实验一:基于搜索引擎,判断某种语言搭配是否符合语言规范;

相关主题