搜档网
当前位置:搜档网 › 文本分类综述

文本分类综述

文本分类综述
文本分类综述

山西大学研究生学位课程论文(2014 ---- 2015 学年第 2 学期)

学院(中心、所):计算机与信息技术学院

专业名称:计算机应用技术

课程名称:自然语言处理技术

论文题目:文本分类综述

授课教师(职称):王素格(教授)

研究生姓名:刘杰飞

年级:2014级

学号:201422403003

成绩:

评阅日期:

山西大学研究生学院

2015年 6 月2日

文本分类综述

摘要文本分类就是在给定的分类体系下,让计算机根据给定文本的内容,将其判别为事先确定的若干个文本类别中的某一类或某几类的过程。文本分类在冗余过滤、组织管理、智能检索、信息过滤、元数据提取、构建索引、歧义消解、文本过滤等方面有很重要的应用。本文主要介绍文本分类的研究背景,跟踪国内外文本分类技术研究动态。介绍目前文本分类过程中的一些关键技术,以及流形学习在文本分类中降维的一些应用。并且讨论目前文本分类研究面临的一些问题,及对未来发展方向的一些展望。

关键词文本分类;特征选择;分类器;中文信息处理

1.引言

上世纪九十年代以来,因特网以惊人的速度发展起来,到现在我们进入大数据时代互联网容纳了海量的各种类型的数据和信息,包括文本、声音、图像等。这里所指的文本可以是媒体新闻、科技、报告、电子邮件、技术专利、网页、书籍或其中的一部分。文本数据与声音和图像数据相比,占用网络资源少,更容易上传和下载,这使得网络资源中的大部分是以文本(超文本)形式出现的。如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。基于机器学习的文本分类系统作为处理和组织大量文本数据的关键技术,能够在给定的分类模型下,根据文本的内容自动对文本分门别类,从而更好地帮助人们组织文本、挖掘文本信息,方便用户准确地定位所需的信息和分流信息。

利用文本分类技术可以把数量巨大但缺乏结构的文本数据组织成规范的文本数据,帮助人们提高信息检索的效率。通过对文本信息进行基于内容的分类,自动生成便于用户使用的文本分类系统,从而可以大大降低组织整理文档耗费的人力资源,帮助用户快速找到所需信息。因此文本分类技术得到日益广泛的关注,成为信息处理领域最重要的研究方向之一。

2.文本分类技术的发展历史及现状

2.1文本分类技术发展历史

国外自动分类研究始于1950年代末,早期文本分类主要是基于知识工程,通过手工定义一些规则来对文本进行分类,这种方法费时费力,还需要对某一领域有足够的了解,才能提炼出合适的规则。H.P.Luhn在这一领域进行了开创性的研究,他将词频统计的思想用于文本分类中。这一时期,主要是分类理论的研究,并将文本分类应用用于信息检索。在这一段时期,提出了很多经典文本分类的数学模型。比如1960年Maron在Journal of ASM上发表了有关自动分类的第一篇论文“On relevance Probabilitic indexing and informarion retriral”,这是Maron和Kuhns提出概的率标引(Probabilitic indexing )模型在信息检

索上的应用。还有Salton提出利用向量空间模型(Vector Space Model,VSM)对文本进行描述等等。

20世纪80年代,这一阶段主要采用传统的知识工程技术,根据专家提供的知识形成规则,手工建立分类器。这一段时期,信息检索技术逐渐成熟,为文本分类提供了许多技术支持,比如1962年H.Borko等人提出了利用因子分析法进行文献的自动分类。Rocchio在1972年提出了再用户查询中不断通过用户反馈来修正类权重向量,来构成简单的线性分类器,还有Van RiJsbergen提出了信息检索的评估标准如准确率,查全率等。

20世纪90年代后进入第三阶段,随着网上在线文本的大量涌现和机器学习的兴起,大规模的文本(包括网页)分类和检索重新引起研究者的兴趣。文本分类系统首先通过在预先分类好的文本集上训练,建立一个判别规则或分类器,从而对未知类别的新样本进行自动归类。大量的结果表明它的分类精度比得上专家手工分类的结果,并且它的学习不需要专家干预,能适用于任何领域的学习,使得它成为目前文本分类的主流方法。比如1992年,Lewis 在他的博士论文《Representation and Learning in Information Retrieval》中系统的介绍了文本分类系统实现方法的各个细节,并且在自己建立的数据集上进行了测试。这篇博士论文是文本分类领域的经典之作。后来的研究者在特征的降维和分类器的设计方面做了大量的工作。Yang Yiming对各种特征选择算法进行了分析比较,讨论了文档频率(Document Frequency,DF)、信息增益(Informatiob Gain,IG)、互信息(Multi-information,MI)和CHI 等方法,结合KNN分类器,得出IG和CHI方法分类效果相对较好的结论,对后来的研究起到了重要的参考作用。新加坡的Hwee Tou NG等人研究了用Perceptron Learning的方法进行文本分类,使用了一直树状的分类结构,大大提高了准确率。

1995年,Vipink基于统计理论提出了支持向量机SVM(Support Vector Machine)方法,基本思想是想找到最优的高维分类超平面。后来有人将线性核函数的支持向量机应用与文本分类,与传统的算法比较在性能上得到了很大的提高,后来也提出了AdaBoost算法框架,比较有代表性的有 Real AdaBoost,Gentle Boost,LogitBoost等。这些 Boosting 算法均己被应用到文本分类的研究中,并且取得和支持矢量机一样好的效果。

2.2文本分类国内外发展现状

国外在自动文本分类以及相关的信息检索、信息抽取领域进行了较为深入的研究。八十年代,自动文本分类以知识工程的方法为主,根据领域专家对给定文本集合的分类经验,人工提取出一组逻辑规则,作为计算机自动文本分类的依据。进入九十年代,基于统计的自动文本分类方法日益受到重视,它在准确率和稳定性方面具有明显的优势。到目前为止,国外的文本自动分类研究已经从最初的可行性基础研究经历了实验性研究进入实用的阶段,并在邮件分类、电子会议、信息过滤等方面取得了较为广泛的应用。

国外当前流行的文本分类算法有Rocchio法及其变异算法、k近邻法(KNN)、决策树、朴素贝叶斯、贝叶斯网络、支持向量机(SVM)等方法,这些方法在英文以及欧美语种的文

本分类上有广泛的研究,并且KNN和SVm确实是英文分类的最好方法。国外对英文文本分类领域的各个问题都有相当深入的研究,对几种流行的方法进行了大量的对比研究。

国内对文本分类研究比较晚,1981年,侯汉清教授首先探讨和介绍了国外文本分类的研究情况。随后,国内很多学者在这方面进行了比较深入的研究。1995 年,清华大学电子工程系的吴军研制的汉语语料自动分类系统,以语料相关系数作为分类依据,以字频、词频及常用搭配为补充,采用停用词表排除非特征词,进行人工指导分类。1998年,东北大学的计算机系的张月杰、姚天顺研制的新闻语料汉语文本自动分类模型,通过计算预定义类别和文本特征项之间相关性来进行自动分类。1999年,邹涛、王继成等开发的中文技术文本分类系统CTDS(Chinese Technical Document Classification System ) 采用了向量空间模型和基于统计的特征词提取技术,能够根据文本的具体内容将其分配到一个或多个类别。此外, 国内很多学者对中文文本分类算法也进行了深入的研究,黄萱箐等提出一种基于机器学习的、独立于语种的文本分类模型。周水庚等在论述隐含语义索引的理论基础,研究了隐含语义索引在中文文本处理中的应用。李荣陆等使用最大熵模型对中文文本分类进行了研究。张剑等提出一种以Word Net语言本体库为基础,建立文本的概念向量空间模型作为文本特征向量的特征提取方法。朱靖波等将领域知识引入文本分类,利用领域知识作为文本特征,提出一种基于知识的文本分类方法。

相比于英文文本分类,中文文本分类的一个重要差别在与预处理阶段,中文文本的读取首先需要分词,不同于英文文本的空格区分,从简单的查词典的方法到后来的基于统计语言模型的分词方法,中文分词技术经过多年的发展已经趋于成熟。比较有影响力的有中国科学院计算所开发的汉语词法分析系统ICTCLAS。很长一段时间由于中文文本分类的研究没有公开的数据集,使得分类算法难以比较,现在一般采用北京大学建立的人民日报语料库和清华大学建立的现代汉语语料库等。

一旦经过预处理将中文文本变成了样本矢量的数据矩阵,那么随后的文本分类过程就可以参考英文文本分类的方法,因此当前的中文文本分类主要集中在如何利用中文文本本身的一些特征来更好的表示文本样本,国内外很多学者在基于知识和统计的两种方法上对中文文本分类进行了大量的研究,主要有基于词典的自动分类系统和基于专家系统的分类系统。这其中上海交通大学,清华大学,北京大学,东北大学,山西大学,新加坡香港的一些大学都有显著的研究成果。

3.文本分类关键技术

一个完整的文本分类过程主要包括以下几部分 : 首先是预处理 , 根据采用的分类模

型将文档集表示成易于计算机处理的形式;对文本类别进行人工标注;对文本进行特征提取;再次是根据预处理的训练集(已预知类别的文档)学习建模,构建出分类器;最后利用测试集文档按一定的测试方法测试建立好的分类器的性能,并不断反馈、学习提高该分类器性能,直至达到预定的目标。具体流程图如下:

图1文本分类流程图

3.1文本预处理

文本预处理包括字符编码转换,去掉网页中导航信息、tag标记等,去掉一些低频词和停止词比如“的”“啊”“the”“a”等,另外要去掉单词前后缀,还有就是词性标注,短语识别,去除停用词,数据清洗也就是去除噪声文档或者垃圾数据还有词频的统计,这里重点介绍自然语言处理技术范畴的中文分词和文本表示。

3.1.1中文分词介绍

由于中文语言的的特点,同一句话可能有不同的分词方式导致不同的意思,所以对文本分类首先要进行分词。目前比较成功的分词系统有北京航空航天大学的CDWS,山西大学的ABWS,采用联想回溯来解决引起组合切分歧义,正确率达到了98.6%,还有哈工大统计分词系统,北大计算语言所分词系统,复旦分词系统等等,根据有无词典切分,基于规则统计切分,现有的分词算法主要有三类分别是基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

(1)基于字符串匹配的分词方法

这种机械分词方法是按照一定策略将待分析的汉字串与一个充分大的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。根据扫描方式分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,分为最大和最小匹配;按照是否与词性标注过程相结合,又分为单纯分词方法和分词与标注相结合的一体化方法。目前常用的有正向最大匹配算

法(FMM)、逆向最大匹配算法(BMM)、还有结合前两种方法优点的双向最大匹配算法(Bi-directional MM),还有最少分词法也叫最短路径法,这是属于贪心算法的一种思想。还有一种是改进扫描方式,称为特征扫描或者标志切分,优先把一些带有明显特征的词作为断电,将原来的字符串分为较小的串再进行机械切分,从而提高准确率,还有就是将分词和词性标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中对分词结果进行检验、调整,极大的提高切分准确率。

(2)基于理解的分词方法

基于理解的分词方法是通过让计算机模拟人对句子的理解,从而达到分词的效果,也就是在分词的同时进行句法,语义分析,利用局发信息和语义信息来进行歧义消解。这种分词方法需要大量的语言知识和信息,由于汉语语言知识的笼统,复杂性,很难将各种语言信息组织成机器可以直接读取的形式,所以目前还处于研究阶段。

(3)基于统计的分词方法

基于统计的分词思想在于利用字与字之间和词与词之间共同出现的概率作为分词的依据。这种方法属于无词典分词,只需要对语料库中的字组频度进行统计,定义两个字的互现信息,计算两个汉字的相邻共现概率,这种互现信息反映了汉字之间的结合关系的紧密程度,当紧密程度高于某一个阈值,我们可以认为这个字组可能构成了一个词。但是这种方法的弊端在于对“这一”“我的”这些词的辨识度不高,所以实际应用中结合基本的分词词典进行分词。

还有一些别的分词方法比如我校刘开瑛老师提出的串频统计和词形匹配结合的分词方法,还有许多好的分词方法,在对中文进行分词时,面临两个难题,一是进行歧义消解,还有就是对未登录词的识别。对于歧义消解目前的研究工作室基于统计方法、词性方法还有就是利用汉字独有的二元关系来处理。对于未登录词主要是进行词性标注,这方面北京大学和山西大学都做了很多工作。

3.1.2文本表示介绍

不同于数据库中的结构化数据,文本使用自然语言,通常是非结构化的,计算机很难直接对其进行处理,因而在分类之前要对文本做一定的预处理,抽取代表其本质特征的元数据以结构化形式保存,将非结构化的文档转换为适合于学习算法以及分类任务的表示形式,这就是文本表示。对文本表示时首先要解决的是特征粒度的选择,是选择字,词,句还是其他来分类,研究表明基于此的分类方法优于字和基于二元同现串的分类方法,所以词性,标点

符号,语义模式作为了文档特征。同学的文本表示方法有布尔模型(Boolean Model),向量空间模型(Vector Space Model),聚类模型(Cluster Model),概率模型(Probabilistic Model)和基于知识模型(Knowledge-Based Model)等。

(1)VSM模型

G.Salton提出的向量空间模型有较好的计算性和可操作性,在信息检索领域和文本分类领域都得到了广泛的应用。VSM模型假设一份文本所属分类至于一些特定的词在改文本中出现的频率有关,而与他出现在文本中位置或顺序无关,也就是通过对构成文本的词项以及词项出现的词频,来进行分类。

对给定文档D(T1,W1;T2,W2;...Tn,Wn)抽象为向量空间中,由于在文档中Tk既可以重复出现又应该有先后次序的关系,分析起来仍有一定的难度。为了简化分析,可以暂不考虑Tk在文档中的先后顺序,并要求文档无异(即没有重复)这时可以把T1...Tn看成一个n维的坐标系,而W1...Wn为相应坐标值,这样就可以看成n维空间的一个向量。Wi为第i个特征的权重,也就刻画了词项在表示文本内容时的重要程度。

(2)权值计算公式

在一个给定的文本中,根据文本的长度和词项出现的频率不同,词的重要性也有所不同,在向量空间模型中这种重要性被称为权值;权值的计算主要依据下面两个经验性的结论: (1)一个项在某文档中出现的次数越多,它和该文档的主题就越相关。

(2)一个项在选取的文档集中出现的次数越多,它刻画某个特定文档特征的能力就越弱 .

最初特征权值计算采用布尔权值,也就是出现为1,不出现为0,这样午饭体现其在文本中的中重要程度,目前普遍采用统计词频来赋权值,主要的计算方法有TFIDF公式。

(3)相似度计算

文本表示成向量以后,文本之间语义相似度可以通过空间中这两个向量间的几何关系来度量,通常采用内积,夹角余弦和相关系数来刻画相似度。

内积函数是一种简单但常有的相似度计算函数,在支持向量的分类算法中经常用到,而且效果也很好,公式如下:。

夹角余弦采用空间中两个向量的夹角余弦值来度量语义相似度。两个向量空间夹角越

小,余弦值越大,语义相似度越大,反之亦然。计算公式如下:

3.2特征降维

文本分类的一个核心难题就是特征空间的高维性和文本表示向量的稀疏性。一个文档集中的特征项动辄就是上万维,这么高的维数特征不仅带来极高的计算复杂度,产生维度灾难,也给分类过程带来了大量的噪音,且容易产生过度拟合的问题,因而有必要简化原始的特征集,提高分类的效率和精度,这种简化技术就是降维技术。降维技术主要分成两大类;特征选择和特征提取。特征选择又称独立评估法,其目的是滤除携带信息量较少的词,只保留对分类贡献较大的词。在特征选择时一般都是利用某种评价函数,独立地对每个原始特征项进行评分,然后按分值的高低将它们排序,从中选取若干个分值最高的特征项,以达到减少总特征数的目的。因此,评价函数的好坏是影响特征选择的关键问题。常见的特征选择方法有文档频率(DF)、信息增益(IG)、互信息(MI)、统计量(CHI-2)等。

(1)文档频率

词条的文档频率(Document Frequency)是指在训练语料中出现该词条的文档数。文档频率方法提取文档频率较高的特征, 它的目的是去掉在训练集上出现次数过少和过多的特征,由于过少没有代表性过多没有区分度,保留具有一定影响力的特征。在各个特征提取方法中, D F方是最简单的。

(2)信息增益

对于特征词条t和文档类别c,IG考察c中出现和不出现t的文档频数来衡量t对于c 的信息增益,定义如下:

其中表示类文档在语料中出现的概率,P(t)表示语料中包含特征词条t的文档的概率,

表示文档包含特征词条t时属于类的条件概率,表示语料中不包含特征词条t的文档的概率,表示文档不包含特征词条t时属于类的条件概率,m表示文档类别数。信息增益的优点在于,它考虑了词条未发生的情况,即虽然某个单词不出现也可能对判断文本类别有贡献。但在类分布和特征值分布是高度不平衡的情况下其效果就会大大降低了。(3)互信息

互信息(Mutual Information)在统计语言模型中被广泛使用。它是通过计算特征词条t和

类别c之间的相关性来完成提取的。如果用A表示包含特征词条t且属于类别c的文档频数,B为包含t但是不属于c的文档频数,C表示属于c但不包含t的文档频数,N表示语料中

文档的总数,t和c的互信息可由下式计算:

(4)统计量

统计量度量特征词条t和文档类别c之间的相关程度,并假设t和c之间符合具有一阶自由度的分布。特征词条对于某类的统计值越高,它与该类之间的相关性越大,携带的类别信息也越多。反之,统计量也是反映属性t和类别c之间的独立程度。当的值为0时,属性t与类别c完全独立。比如对于两类分类情况:令N表示训练语料中的文档总数,c为某一特定类别,t表示特定的词条。A表示属于c类且包含t的文档频数,B表示不属于c但是包含t的文档频数。C表示属于c类但是不包含t的文档频数,D是既不属于c也不包含t的文档频数.其定义为:

统计量和互信息的差别在于它是一个归一化的统计量,但它对低频特征项的区分效果不好。(5)流形学习在降维中的应用

除了以上的降维方法还有文本证据权,期望交叉熵几率比等,此处结合我的研究方向讨论流形学习在降维过程中的应用。流形学习放到是一种非线性降维方法,比如ISOMAP、LLE、LE3。其中ISOMAP算法是建立在多维标度变换算法的基础上,考虑全局优化的算法。通过构造领域图,测地线距离用欧氏距离直接近似,对非领域点,则采用领域图上两个点的最短路劲近似,最后用多维标度变换算法(MDS)构造低维嵌入。LLE则是将数据中全局非线性转化成局部线性来讨论,在构造领域图后计算重构权值矩阵。利用样本间的领域关系来重构权值矩阵,对每个样本,利用他的k个最近邻的线性组合进行重构,最后利用权值矩阵寻找低维嵌入。

3.3文本分类算法及分类器

文本分类算法是设计实现分类器的理论基础,由于属于机器学习的一个分支,许多经典的机器学习算法都被应用在文本分类中来,文本分类的方法大部分来自于模式分类,基本上可以分为三大类:一种是基于统计的方法,如Na?ve Bayes, KN N、类中心向量、Rocchio算法及其变异方法、回归模型、支持向量机、最大熵模型等方法;另一种是基于连接的方法,

即人工神经网络;还有一种是基于规则的方法,如决策树、关联规则、粗糙集等,这些方法的主要区别在于规则获取方法的不同。

(1)Rocchio方法

Rocchio方法是一种基于相似度的计算方法。基本思想是在训练阶段为每个类别ci 建立一个代表向量,其中|T|表示训练集中的特征总数。每类文本集生成一个代表该类的中心向量,然后在新文本到来时,确定新文本向量,计算该向量与每类中心向量的距离(相似度),从而判定文本属于与文本距离最近的类。其中类别ci的代表向量的第k维值wki由公

式计算:

其中,β为训练样本中正例的控制参数,γ为训练样本中反例的控制参数,|ci|表示训练样本中正例的数目,N表示训练样本的文档总数,正例指属于类别ci的文本,反例指不属于类别ci的文本。β和γ是两个控制参数,可以通过提高β降低γ来削弱反例的影响。

具体执行步骤是通过所有训练文本向量采用简单的算术平均计算每类文本集的中心向量;(γ=0),当新文本到达后,分词处理,将文本表示为特征向量;计算新文本特征向量和每类中心向量间的相似度,公式为:

(2)朴素贝叶斯方法

Na?ve Bayes是基于概率理论的学习和分类方法,是一种常见的简单的线性分类器。贝叶斯分类是根据给定样本描述的可能的类别基础上产生的后验概率分布。为了简化计算量,朴素贝叶斯是基于假定样本特征项是相互独立这一假设的,但是同时这也导致贝叶斯分类器分类效果不太理想。

具体思路设各个类别的集合为 {c1, c2,…cn},设E为实例的描述,确定E的类别。

则根据先验概率: P(ci) ,条件概率: P(E | ci)就可以知道p(E),最终对其进行分类。(3)KNN分类

k 近邻分类模型,是最著名的模式识别统计学方法之一, 它在很早就被用于文本分类研究, 而且是取得最好结果的文本分类算法之一,是一种稳定而有效的文本分类方法。采用 K

N N方法进行文档分类的过程如下:

对于某一给定待分类的测试文本,考察和待分类文本最相似的k篇文本,通过相似度找到与之最相似的k个训练文本。在此基础上, 给每个文本类打分, 分值为k个训练文本中属于该类的文本与测试文本之间的相似度之和。也就是说,如果在这k个文本中,有多个文本属于一个类, 则该类的分值为这些文本与测试文本之间的相似度之和。对这k个文本所属类的分值统计完毕后,即按分值进行排序。另外还应当选定一个阈值,只有分值超过阈值的类才予以考虑。最后根据分值对待分类文本进行分类。

具体操作如下首先根据特征项集合重新描述训练文本向量,在新文本到达后,根据特征词,确定新文本的向量表示,在训练文本集中选出与新文本最相似的K个文本,计算公式为;

在新文本的k个邻居中,依次计算每类的权重,计算公式:

(4)SVM分类

支持向量机(Support Vector Machine,SVM)是有贝尔实验室的小组一起开发出来的,目前在文本分类领域取得了很好的分类质量,它基于结构风险最小化原理,将原始数据压缩到支持向量集合,学习得到分类决策函数,基本思想是做一个超平面作为决策平面,是正负模式之间的空白最大,也就是使得分类错误率最小,它通过非线性变换,将输入向量映射到一个高维空间H,在H中构造最优分类超平面,从而达到最好的泛化能力。在解决小样本,非线性及高维模式识别问题中有许多优势。其最有分类超平面和支持向量如图2:

图2

其中H1是支持向量,H是最优分类面。

(5)决策树方法

Decision Tree方法着眼于从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式,在决策树的内部节点进行属性值的比较并根据不同的

属性值判断从该节点向下的分支,在决策树的叶节点得到结论。所以从根到叶节点的一条路径就对应着一条合取规则,整棵决策树就对应着一组析取表达式规则。

具体操作分为以下五步:

1,对训练文本预处理和特征选择,把文本表示为特征向量:

2,生成树(growth phase),用递归算法实现

3,修剪生成树(prune phase),利用向后剪枝法或向前剪枝法对前面生成的决策树实行剪枝处理,去除那些对分类影响不大的分支。

4,依据最终形成的树,生成规则集;

5,将待分类的文本表示为文本向量,匹配规则集,得到所属类别。

(6)其他分类方法

除了上面介绍的分类方法之外还有基于神经网络(NN)的方法,基于投票的方法Bagging 方法和Boosting方法,其中Bagging方法是训练R个分类器fi,分类器之间其他相同就是参数不同。其中fi是通过从训练集合中(N篇文档)随机取(取后放回)N次文档构成的训练集合训练得到的。对于新文档d,用这R个分类器去分类,得到的最多的那个类别作为d的最终类别。

3.4分类器评价

文本分类器的评价主要在领域独立性、时间无关性、可扩展性和空间和时间代价这几方面。通过二值分类列联表:

p = 找到的该文档所属的正确类别数目 / 判断为该文档所属类的类别数目

r = 找到的该文档所属的正确类别数目 / 该文档所属的所有类别数目

另一种常用的将查全率和查准率结合起来的性能评价方法F值(F-measure) 其计算公式为:

4.文本分类技术面临的一些问题以及对未来的展望

本文介绍了文本分类的研究背景,国内外关于文本分类技术研究的最新动态,从文本表示,特征降维,分类算法等方面介绍了近年来文本分类研究的关键技术。

尽管文本分类目前取得一定的成功,但是相比于一般的机器学习应用问题,文本分类问题仍然面临一些挑战:

(1)文本分类的矢量矩阵一般是成千上万的稀疏矩阵,对于这样超高维数矩阵,文本分类器必须能够有效地存取和运算;

(2)文本的特征词集合中存在多义词、同义词现象,还包含大量的噪音,中文文本中还需要恰当地分词等等,如何从文本中形成最有效的特征矢量成为文本分类中需要解决的关键问题。因为如果提取的特征不可靠,哪怕采用再好的分类器,其性能也会大打折扣;

(3)文本分类的研究和它的实际应用在某种程度上存在脱节,文本分类中采用的数据量对比对于小的数据集上有比较高的性能,但是实际中尤其是大数据环境下,就不一定成立。(4)结合自然语言领域的研究,基于语义度量的数据模型和分类方法;缓解样本标注瓶颈以及样本数据分布带来的影响等。

随着机器学习技术研究的深入,针对不同实际应用和数据的特征,特别是互联网内容处理和其他一些大规模复杂应用中数据模型、类别规模和性能瓶颈等问题,将成为文本分类相关研究和应用的重点和主要突破的方向。

参考文献

[1]王明文,付雪峰等.网页与文本自动分类综述.南昌工程学院学报,2005,24(3):20—25.

[2]张浩,汪楠.文本分类技术研究进展.计算机科学与技术,2007,23: 95—96.

[3]张俊丽.文本分类中关键技术研究.华中师范大学,2008.

[4]孙丽华.中文文本自动分类的研究.哈尔滨工程大学,2002.

[5]张巍.流形学习算法在中文问题分类中的应用研究.计算机应用与软件,2014,31(8):269-287.

[6]石陆魁,王歌,杨璐等.基于特征词相交和流形学习的文本分类方法.河北工业大学学报,2014,43(2):1—7.

文本分类综述

山西大学研究生学位课程论文(2014 ---- 2015 学年第 2 学期) 学院(中心、所):计算机与信息技术学院 专业名称:计算机应用技术 课程名称:自然语言处理技术 论文题目:文本分类综述 授课教师(职称):王素格(教授) 研究生姓名:刘杰飞 年级:2014级 学号:201422403003 成绩: 评阅日期: 山西大学研究生学院 2015年 6 月2日

文本分类综述 摘要文本分类就是在给定的分类体系下,让计算机根据给定文本的内容,将其判别为事先确定的若干个文本类别中的某一类或某几类的过程。文本分类在冗余过滤、组织管理、智能检索、信息过滤、元数据提取、构建索引、歧义消解、文本过滤等方面有很重要的应用。本文主要介绍文本分类的研究背景,跟踪国内外文本分类技术研究动态。介绍目前文本分类过程中的一些关键技术,以及流形学习在文本分类中降维的一些应用。并且讨论目前文本分类研究面临的一些问题,及对未来发展方向的一些展望。 关键词文本分类;特征选择;分类器;中文信息处理 1.引言 上世纪九十年代以来,因特网以惊人的速度发展起来,到现在我们进入大数据时代互联网容纳了海量的各种类型的数据和信息,包括文本、声音、图像等。这里所指的文本可以是媒体新闻、科技、报告、电子邮件、技术专利、网页、书籍或其中的一部分。文本数据与声音和图像数据相比,占用网络资源少,更容易上传和下载,这使得网络资源中的大部分是以文本(超文本)形式出现的。如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。基于机器学习的文本分类系统作为处理和组织大量文本数据的关键技术,能够在给定的分类模型下,根据文本的内容自动对文本分门别类,从而更好地帮助人们组织文本、挖掘文本信息,方便用户准确地定位所需的信息和分流信息。 利用文本分类技术可以把数量巨大但缺乏结构的文本数据组织成规范的文本数据,帮助人们提高信息检索的效率。通过对文本信息进行基于内容的分类,自动生成便于用户使用的文本分类系统,从而可以大大降低组织整理文档耗费的人力资源,帮助用户快速找到所需信息。因此文本分类技术得到日益广泛的关注,成为信息处理领域最重要的研究方向之一。 2.文本分类技术的发展历史及现状 2.1文本分类技术发展历史 国外自动分类研究始于1950年代末,早期文本分类主要是基于知识工程,通过手工定义一些规则来对文本进行分类,这种方法费时费力,还需要对某一领域有足够的了解,才能提炼出合适的规则。H.P.Luhn在这一领域进行了开创性的研究,他将词频统计的思想用于文本分类中。这一时期,主要是分类理论的研究,并将文本分类应用用于信息检索。在这一段时期,提出了很多经典文本分类的数学模型。比如1960年Maron在Journal of ASM上发表了有关自动分类的第一篇论文“On relevance Probabilitic indexing and informarion retriral”,这是Maron和Kuhns提出概的率标引(Probabilitic indexing )模型在信息检

文献综述的类型

文献综述是"一种在分析、比较、整理、归纳一定时空范围内有关特 定课题研究的全部或大部情报的基础上,简明的类述其中的最重要部分,并标引出处的情报研究报告"。文献综述的定义包含三个基本要素:首先,文献综述反映原始文献有一定的时间和空间范围,它反映一定时期内或是某一时期一定空间范围的原始文献的内容。其次,文献综述集中反映一批相关文献的内容。其它二次文献如题录、索引、文摘、提要等一条只能揭示一篇原始文献的外表信息或内容信息,且各条目之间没有联系,而综述一篇可集中一批相关文献,且将这批文献作为一个有机整体予以揭示,信息含量比二次文献多得多。第三,文献综述是信息分析的高级产物。书目、索引等是对原始文献的外表特征进行客观描述,不涉及文献内容,编写人员不需了解原始文献的内容,也不需具备相关学科的基础知识;提要、文摘是对原始文献的 内容作简要介绍和评价,编写人员需要具有相关学科的一些基础知识,以识别和评价原始文献;文献综述则要求编写人员对综述的主题有深 入的了解,全面、系统、准确、客观地概述某一主题的内容。运用分析、比较、整理、归纳等方法对一定范围的文献进行深度加工,对于读者具有深度的引导功能,是创造性的研究活动。 文献综述的类型可以从不同的角度对文献综述进行划分,最常见的方法是根据文献综述反映内容深度的不同即信息含量的不同划分按照文献综述信息含量的不同,可将文献综述分为叙述性综述、评论性综述和专题研究报告三类。

叙述性综述是围绕某一问题或专题,广泛搜集相关的文献资料,对其内容进行分析、整理和综合,并以精炼、概括的语言对有关的理论、观点、数据、方法、发展概况等作综合、客观的描述的信息分析产品。叙述性综述最主要特点是客观,即必须客观地介绍和描述原始文献中的各种观点和方法。一般不提出撰写者的评论、褒贬,只是系统地罗列。叙述性综述的特点使得读者可以在短时间内,花费较少的精力了解到本学科、专业或课题中的各种观点、方法、理论、数据,把握全局,获取资料。 评论性综述是在对某一问题或专题进行综合描述的基础上,从纵向或横向上作对比、分析和评论,提出作者自己的观点和见解,明确取舍的一种信息分析报告。评论性综述的主要特点是分析和评价,因此有人也将其称为分析性综述。评论性综述在综述各种观点、理论或方法的同时,还要对每种意见、每类数据、每种技术做出分析和评价,表明撰写者自己的看法,提出最终的评论结果。可以启发思路,引导读者寻找新的研究方向。 专题研究报告是就某一专题,一般是涉及国家经济、科研发展方向的重大课题,进行反映与评价,并提出发展对策、趋势预测。"是一种现实性、政策性和针对性很强的情报分析研究成果"。其最显著的特点是预测性,它在对各类事实或数据、理论分别介绍描述后,进行论证、预测的推演,最后提出对今后发展目标和方向的预测及规划。专题研究报告对于科研部门确定研究重点和学科发展方向,领导部门制定各项决策,有效实施管理起着参考和依据的作用。这一类综述主

文本分类中的特征提取和分类算法综述

文本分类中的特征提取和分类算法综述 摘要:文本分类是信息检索和过滤过程中的一项关键技术,其任务是对未知类别的文档进行自动处理,判别它们所属于的预定义类别集合中的类别。本文主要对文本分类中所涉及的特征选择和分类算法进行了论述,并通过实验的方法进行了深入的研究。 采用kNN和Naive Bayes分类算法对已有的经典征选择方法的性能作了测试,并将分类结果进行对比,使用查全率、查准率、F1值等多项评估指标对实验结果进行综合性评价分析.最终,揭示特征选择方法的选择对分类速度及分类精度的影响。 关键字:文本分类特征选择分类算法 A Review For Feature Selection And Classification Algorithm In Text Categorization Abstract:Text categorization is a key technology in the process of information retrieval and filtering,whose task is to process automatically the unknown categories of documents and distinguish the labels they belong to in the set of predefined categories. This paper mainly discuss the feature selection and classification algorithm in text categorization, and make deep research via experiment. kNN and Native Bayes classification algorithm have been applied to test the performance of classical feature detection methods, and the classification results based on classical feature detection methods have been made a comparison. The results have been made a comprehensive evaluation analysis by assessment indicators, such as precision, recall, F1. In the end, the influence feature selection methods have made on classification speed and accuracy have been revealed. Keywords:Text categorization Feature selection Classification algorithm

基于机器学习的文本分类方法

基于机器学习算法的文本分类方法综述 摘要:文本分类是机器学习领域新的研究热点。基于机器学习算法的文本分类方法比传统的文本分类方法优势明显。本文综述了现有的基于机器学习的文本分类方法,讨论了各种方法的优缺点,并指出了文本分类方法未来可能的发展趋势。 1.引言 随着计算机技术、数据库技术,网络技术的飞速发展,Internet的广泛应用,信息交换越来越方便,各个领域都不断产生海量数据,使得互联网数据及资源呈现海量特征,尤其是海量的文本数据。如何利用海量数据挖掘出有用的信息和知识,方便人们的查阅和应用,已经成为一个日趋重要的问题。因此,基于文本内容的信息检索和数据挖掘逐渐成为备受关注的领域。文本分类(text categorization,TC)技术是信息检索和文本挖掘的重要基础技术,其作用是根据文本的某些特征,在预先给定的类别标记(label)集合下,根据文本内容判定它的类别。传统的文本分类模式是基于知识工程和专家系统的,在灵活性和分类效果上都有很大的缺陷。例如卡内基集团为路透社开发的Construe专家系统就是采用知识工程方法构造的一个著名的文本分类系统,但该系统的开发工作量达到了10个人年,当需要进行信息更新时,维护非常困难。因此,知识工程方法已不适用于日益复杂的海量数据文本分类系统需求[1]。20世纪90年代以来,机器学习的分类算法有了日新月异的发展,很多分类器模型逐步被应用到文本分类之中,比如支持向量机(SVM,Support Vector Machine)[2-4]、最近邻法(Nearest Neighbor)[5]、决策树(Decision tree)[6]、朴素贝叶斯(Naive Bayes)[7]等。逐渐成熟的基于机器学习的文本分类方法,更注重分类器的模型自动挖掘和生成及动态优化能力,在分类效果和灵活性上都比之前基于知识工程和专家系统的文本分类模式有所突破,取得了很好的分类效果。 本文主要综述基于机器学习算法的文本分类方法。首先对文本分类问题进行概述,阐述文本分类的一般流程以及文本表述、特征选择方面的方法,然后具体研究基于及其学习的文本分类的典型方法,最后指出该领域的研究发展趋势。 2.文本自动分类概述 文本自动分类可简单定义为:给定分类体系后,根据文本内容自动确定文本关联的类别。从数学角度来看,文本分类是一个映射过程,该映射可以是一一映射,也可以是一对多映射过程。文本分类的映射规则是,系统根据已知类别中若干样本的数据信息总结出分类的规律性,建立类别判别公式或判别规则。当遇到新文本时,根据总结出的类别判别规则确定文本所属的类别。也就是说自动文本分类通过监督学习自动构建出分类器,从而实现对新的给定文本的自动归类。文本自动分类一般包括文本表达、特征选取、分类器的选择与训练、分类等几个步骤,其中文本表达和特征选取是文本分类的基础技术,而分类器的选择与训练则是文本自动分类技术的重点,基于机器学习的文本分来就是通过将机器学习领域的分类算法用于文本分类中来[8]。图1是文本自动分类的一般流程。

文本情感分类研究综述

Web文本情感分类研究综述 王洪伟/刘勰/尹裴/廖雅国 2012-9-27 14:55:59 来源:《情报学报》(京)2010年5期【英文标题】Review of Sentiment Classification on Web Text 【作者简介】王洪伟,男,1973年生,博士,副教授/博士生导师,研究方向:本体建模和情感计算,E-mail:hwwang@https://www.sodocs.net/doc/008661415.html,。同济大学经济与管理学院,上海200092; 刘勰,男,1985年生,硕士研究生,研究方向:数据挖掘与情感计算。同济大学经济与管理学院,上海200092; 尹裴,女,1986年生,硕士研究生,研究方向:商务智能。同济大学经济与管理学院,上海200092; 廖雅国,男,1954年生,博士,教授,研究方向:人工智能与电子商务。香港理工大学电子计算学系,香港 【内容提要】对用户发表在Web上的评论进行分析,能够识别出隐含在其中的情感信息,并发现用户情感的演变规律。为此,本文对Web文本情感分类的研究进行综述。将情感分类划分为三类任务:主客观分类、极性判别和强度判别,对各自的研究进展进行总结。其中将情感极性判别的方法分为基于情感词汇语义特性的识别和基于统计自然语言处理的识别方法。分析了情感分类中的语料库选择和研究难点。最后总结了情感分类的应用现状,并指出今后的研究方向。

Analyzing the users' reviews on the Web can help us to identify users' implicit sentiments and find the evolution laws of their emotion. To this end, this paper is a survey about the sentiment classification on the Web text. We divided the process of classification into three categories:subjective and objective classification,polarity identification and intensity identification and respectively summarize the resent research achievements in these fields. We also sorted the methods of polarity identification into two types: one is based on the emotional words with semantic characteristics, while the other statistic methods of natural language processing. What is more, the choice of corpus and potential research problems are discussed. At last, this paper summarized the status quo of application and pointed out the direction of future research. 【关键词】Web文本/情感分类/综述/主观性文本Web texts/Sentiment classification/Survey/Subjective text 随着互联网的流行,Web文本成为我们获取信息、发表观点和交流情感的重要来源。特别是随着Web2.0技术的发展,网络社区、博客和论坛给网络用户提供了更宽广的平台来交流信息和表达意见。这些文章和言论往往包含有丰富的个人情感,比如对某部大片的影评,对某款手机的用户体验等,其中蕴含着巨大的商业价值。如何从这些Web文本中进行情感挖掘,获取情感倾向已经成为当今商务智能领域关注的热点。所谓情感分析(sentiment analysis),就是确定说话人或作者对某个特定主题的态度。其中,态度可以是他们的判断或者评估,他们(演说、写作时)的情绪状态,或者有意(向受众)传递的情感信息。因此,情感分

文本分类综述1

文本分类综述 1. 引言 1.1 文本分类的定义 文本分类用电脑对文本集按照一定的分类体系或标准进行自动分类标记,与文本分类相近的概念是文本聚类。文本聚类是指,由机器将相似的文档归在一起。与文本分类的区别在于,文本分类是监督学习,类别是事先规定好的,文本聚类是无监督学习,由计算机把类似文本归在一起,事先并不划定好类别。 基于统计的文本分类算法进行文本分类就是由计算机自己来观察由人提供的训练文档集,自己总结出用于判别文档类别的规则和依据。 文本分类的基本步骤是:文本表示->特征降维->分类器训练>文本分类 1.2 文本分类的基本思路 文本分类基本方法可以归结为根据待分类数据的某些特征来进行匹配,选择最优的匹配结果,从而实现分类。 计算机并不认识文档,因此首先就要设法如何转化一篇文档为计算机所接受,转化方法要与文本有对应关系。对于计算机文本分类而言,这是最重要的步骤。 其次要制定出一定的评判标准,根据文档表示结果对文本进行分类 1.3 文本分类目前的研究热点 2. 文本表示 利用计算机来解决问题,首先就是要找到一种使计算机能够理解方法来表述问题,对文本分类问题来说,就是要建立一个文档表示模型。 一般来说,利用文档中的语义信息来表示文档比较困难,因此直接采用词频来表示文档,不过也出现了许多利用语义的文档表示方法。 2.1 向量空间模型(VSM) VSM模型是目前所用的较多的文本表示模型,这种模型把文本看作是一个特征项的集合。特征项可以是词,也可以是人为所构造的合理的特征。

2.2 词袋模型 词袋模型是VSM 模型在文本分类问题中的一个最简单的应用。对于一篇文档,最直观的方法就是使用词和短语作为表示文本的特征。对于英文文章来说,各个单词之间己经用空格分开,可以直接获取特征词,不过由于英语中存在词形的变化,如:名词的单复数、动词的时态变化、词的前缀和后缀变化等,所以会需要一个抽取词干的过程。对于中文来说,因为词和词之间没有停顿,所以需要借助于词典来统计特征词。对于文本分类来说,常用的方法为TF 即词频法。 具体操作为: 对文本,北京理工大学计算机专业创建于1958年,是中国最早设立的计算机专业的大学之一。对于该文档,词袋为{北京、理工、大学、计算机、专业、创建、1958、中国、最早、设立}相应的向量为{1,1,2,2,2,1,1,1,1},这种统计特征词词频当作文档特征的方法也称为TF 法,为了防止这种方法统计出的特征使得文本长度影响到分类结果,要把它做归一化处理,最容易想到的归一化做法是除以文本长度。 另外还有另一个指标IDF 指标,衡量词的重要性,一个词在一篇文本中出现的频率越高,同时在总的训练文本中出现的频率越低,那么这个词的IDF 值越高。 操作: 总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到,公式表示为 ,idf 衡量了一个词的重要程度,因此tf ×idf 可以更好的来表示文本。 2.3 其他模型 3. 特征降维 文本所形成的不加处理的特征向量维数很高,以词袋模型为例,一方面,很多文章只有几千词,而一个分词词典所包含的词有数万个,如果不加处理,把所有词都表示出来,是极大的浪费,另一方面,若依照分词词典建立向量,事实上是无法使用的,因此需要对文档特征进行降维处理。把不用的特征去掉,保留区分度高的词语。特侦降维可以有两种思路,特征选择和特征提取,其中,特征选择是指在原有特征的基础上,选择一部分特征来表示文本,特征性质不变,例如||log()|:| i j D idf j t d =∈

论文分类简介

论文的分类 按医学期刊常用格式分类 一般医学刊物中刊用的文章,大致可分为以下几种类型:述评、论著(论著摘要、实验研究、诊断技术等),病(例)现报告,临床病(例)理讨论、学术交流、综述、专题笔谈、经验介绍、讲座、简讯等。 一、论著类 1、论著:是论文种类中最常见的一种形式,属于原创性论文。医学论著应具有四大特点: 1.在写作的形式上有比较规范的要求,包括文题、作者姓名、作者单位、属地、邮编,符合问题内容要求的中文摘要、英文摘要、关键词(3-8个)、前言(引言)、资料(材料)与方法、结果、讨论(体会)和参考文献等各项内容(论著字数应在2500—3000字以上)。 2.医学论著是作者从自己已占有的基本素材(第一性资料)出发,经过科学、严谨地整理、加工、分析、论证,得出论点并形成规范性的文字作品。 3.医学论著所表达的结论比较明确、可信,论文质量与学术价值较高。 4.医学论著应为一次性文献(含循证医学的系统评价)。 2、研究简报:是论著的一种简略形式,它的基本格式和结构与论著类相似,只是限于期刊的篇幅要求或者研究内容相对简单,才进行了不同程度的压缩(各期刊的要求不同)。其篇幅以2500-3000字为限。可以写研究简报的情况有:1.重要科研项目的阶段总结或小结(有新发现); 2.某些方面有突破的成果;3. 重要技术革新成果,包括技术或工艺上取得突破,经济效益好。快报类科技期刊只收研究简报类文章。 二、综述和述评 综述和述评统称为文献述评,是对某时期某学科或某专题所发表的原始文献中有价值的内容进行综述和评论,主要特点就是“述”和“评”,由于两者的重点、程度和水平上的不同,而有综述和述评之分。综述又称文献综述,述评又称专题述评。 三、专题研究论文 专题研究是指对某专项课题的研究。专题研究论文是对其创造性的科学研究成果所作的理论分析和总结。专题研究论文与科技报告和学术论文有所不同。科技报告侧重过程记录;学术论文主要体现创造性成果和理论性、学术性。可以通俗地说,专题研究论文介于二者之间。 四、个案报道:是临床工作者通过在临床上遇到的特殊病例和罕见病例,以简短文字进行报道的医学论文。一般不超过1000字,形式也比较单一。标准的病例报道分为三段式:前言、临床治疗和讨论。

快速流分类算法研究综述

快速流分类算法研究综述 李振强 (北京邮电大学信息网络中心,北京 100876) 摘要 本文对流分类算法进行了综述,包括流分类的定义,对流分类算法的要求,以及各种流分类算法的分析比较。文章的最后指出了在流分类方面还没有得到很好解决的问题,作为进一步研究的方向。 关键词 流分类;服务质量;IP 背景 当前的IP网络主要以先到先服务的方式提供尽力而为的服务。随着Internet的发展和各种新业务的出现,尽力而为的服务已经不能满足人们对Internet的要求,IP网络必须提供增强的服务,比如:SLA(Service Level Agreement)服务,VPN(Virtual Private Network)服务,各种不同级别的QoS (Quality of Service)服务,分布式防火墙,IP安全网关,流量计费等。所有这些增强服务的提供都依赖于流分类,即根据包头(packet header)中的一个或几个域(field)决定该包隶属的流(flow)。典型的,包头中可以用来分类的域包括:源IP地址(Source IP Address)、目的IP地址(Destination IP Address)、协议类型(Protocol Type)、源端口(Source Port)和目的端口(Destination Port)等。 流分类算法描述 首先定义两个名词:规则(rule)和分类器(classifier)。用来对IP包进行分类的由包头中若干域组成的集合称之为规则,而若干规则的集合就是分类器。构成规则的域(我们称之为组件component)的值可以是某个范围,例如目的端口大于1023。流分类就是要确定和每个包最匹配的规则。表1是由6条规则组成的一个分类器。我们说这是一个5域分类器,因为每条规则由5个组件构成。我们假定分类器中的规则是有优先级的,越靠前的规则优先级越高,即规则1的优先级最高,规则6的最低。

文本分类概述教学教材

文本分类概述

第一章绪论 1.1研究背景 当今的时代,是一个信息技术飞速发展的时代。随着信息技术的飞速发展,科学知识也在短时间内发生了急剧的、爆炸性的增长。 据1998年的资料显示[1],70年代以来,全世界每年出版图书50万种,每一分钟就有一种新书出版。80年代每年全世界发表的科学论文大约500万篇,平均每天发表包含新知识的论文为1.3万-1.4万篇;登记的发明创造专利每年超过30万件,平均每天有800-900件专利问世。近二十年来,每年形成的文献资料的页数,美国约1,750亿页。另据联合国教科文组织所隶属的“世界科学技术情报系统”曾做的统计显示,科学知识每年的增长率,60年代以来已从9.5%增长到10.6%,到80年代每年增长率达12.5%。据说,一位化学家每周阅读40小时,光是浏览世界上一年内发表的有关化学方面的论文和著作就要读48年。而2005年的资料显示[2],进入20世纪后全世界图书品种平均20年增加一倍,册数增加两倍。期刊出版物,平均10年增加一倍。科技文献年均增长率估计为13%,其中某些学科的文献量每10年左右翻一番,尖端科技文献的增长则更快,约2-3年翻一番。 同时,伴随着Internet的迅猛发展,网站和网页数也在迅速增长,大约每年翻一番。据估计,目前全世界网页数已高达2000亿,而Google宣称其已索引250亿网页。在我国,中国互联网络信息中心从2001年起每年都对中文网页总数作统计调查,统计结果显示,中文网页总数已由2001年4月30日的 159,460,056个发展到2005年12月31日的24亿个,增长之快可见一斑[3,4]。

文献综述的类型

一、文献综述的类型、特点及作用 文献综述是“一种在分析、比较、整理、归纳一定时空范围内有关特定课题研究的全部或大部情报的基础上,简明的类述其中的最重要部分,并标引出处的情报研究报告”。文献综述的定义包含三个基本要素:首先,文献综述反映原始文献有一定的时间和空间范围,它反映一定时期内或是某一时期一定空间范围的原始文献的内容。其次,文献综述集中反映一批相关文献的内容。其它二次文献如题录、索引、文摘、提要等一条只能揭示一篇原始文献的外表信息或内容信息,且各条目之间没有联系,而综述一篇可集中一批相关文献,且将这批文献作为一个有机整体予以揭示,信息含量比二次文献多得多。第三,文献综述是信息分析的高级产物。书目、索引等是对原始文献的外表特征进行客观描述,不涉及文献内容,编写人员不需了解原始文献的内容,也不需具备相关学科的基础知识;提要、文摘是对原始文献的内容作简要介绍和评价,编写人员需要具有相关学科的一些基础知识,以识别和评价原始文献;文献综述则要求编写人员对综述的主题有深入的了解,全面、系统、准确、客观地概述某一主题的内容。运用分析、比较、整理、归纳等方法对一定范围的文献进行深度加工,对于读者具有深度的引导功能,是创造性的研究活动。 1.文献综述的类型可以从不同的角度对文献综述进行划分,最常见的方法是根据文献综述反映内容深度的不同即信息含量的不同划分 按照文献综述信息含量的不同,可将文献综述分为叙述性综述、评论性综述和专题研究报告三类。 叙述性综述是围绕某一问题或专题,广泛搜集相关的文献资料,对其内容进行分析、整理和综合,并以精炼、概括的语言对有关的理论、观点、数据、方法、发展概况等作综合、客观的描述的信息分析产品。叙述性综述最主要特点是客观,即必须客观地介绍和描述原始文献中的各种观点和方法。一般不提出撰写者的评论、褒贬,只是系统地罗列。叙述性综述的特点使得读者可以在短时间内,花费较少的精力了解到本学科、专业或课题中的各种观点、方法、理论、数据,把握全局,获取资料。 评论性综述是在对某一问题或专题进行综合描述的基础上,从纵向或横向上作对比、分析和评论,提出作者自己的观点和见解,明确取舍的一种信息分析报告。评论性综述的主要特点是分析和评价,因此有人也将其称为分析性综述。评论性综述在综述各种观点、理论或方法的同时,还要对每种意见、每类数据、每种技术做出分析和评价,表明撰写者自己的看法,提出最终的评论结果。可以启发思路,引导读者寻找新的研究方向。 专题研究报告是就某一专题,一般是涉及国家经济、科研发展方向的重大课题,进行反映

Web文本情感分类研究综述

情报学报  ISSN1000-0135 第29卷第5期931-938,2010年10月 JOURNALOFTHECHINASOCIETYFORSCIENTIFIC ANDTECHNICALINFORMATIONISSN1000-0135Vol.29 No.5,931-938October 2010 收稿日期:2009年6月29日 作者简介:王洪伟,男,1973年生,博士,副教授桙博导,研究方向:本体建模和情感计算,E-mail:hwwang@tongji.edu.cn。刘勰,男,1985年生,硕士研究生,研究方向:数据挖掘与情感计算。尹裴,女,1986年生,硕士研究生,研究方向:商务智能。廖雅国,男,1954年生,博士,教授,研究方向:人工智能与电子商务。 1) 本文得到国家自然科学基金项目(70501024,70971099);教育部人文社会科学资助项目(05JC870013);上海市重点学科建设项目(B310);香港研究资助局项目(polyU5237桙08E)资助。 doi:10.3772桙j.issn.1000-0135.2010.05.023 Web文本情感分类研究综述 1) 王洪伟1  刘 勰1  尹 裴1  廖雅国 2 (1畅同济大学经济与管理学院,上海200092;2畅香港理工大学电子计算学系,香港) 摘要 对用户发表在Web上的评论进行分析, 能够识别出隐含在其中的情感信息,并发现用户情感的演变规律。为此,本文对Web文本情感分类的研究进行综述。将情感分类划分为三类任务:主客观分类、极性判别和强度判别,对各自的研究进展进行总结。其中将情感极性判别的方法分为基于情感词汇语义特性的识别和基于统计自然语言处理的识别方法。分析了情感分类中的语料库选择和研究难点。最后总结了情感分类的应用现状,并指出今后的研究方向。 关键词 Web文本 情感分类 综述 主观性文本 LiteratureReviewofSentimentClassificationonWebText WangHongwei1 ,LiuXie1 ,YinPei1 andLiuN.K.James 2 (1畅SchoolofEconomicsandManagement,TongjiUniversity,Shanghai200092;2畅DepartmentofComputing,HongKongPolytechnicUniversity,HongKong) Abstract Analyzingtheusers’reviewsontheWebcanhelpustoidentifyusers’implicitsentimentsandfindtheevolution lawsoftheiremotion.Tothisend,thispaperisasurveyaboutthesentimentclassificationontheWebtext.Wedividedtheprocessofclassificationintothreecategories:subjectiveandobjectiveclassification,polarityidentificationandintensity identificationandrespectivelysummarizetheresentresearchachievementsinthesefields.Wealsosortedthemethodsofpolarityidentificationintotwotypes:oneisbasedontheemotionalwordswithsemanticcharacteristics,whiletheotherstatisticmethodsof naturallanguageprocessing.Whatismore,thechoiceofcorpusandpotentialresearchproblemsarediscussed.Atlast,thispaper summarizedthestatusquoofapplicationandpointedoutthedirectionoffutureresearch. Keywords Webtexts,sentimentclassification,survey,subjectivetext 随着互联网的流行,Web文本成为我们获取信 息、发表观点和交流情感的重要来源。特别是随着Web2畅0技术的发展,网络社区、博客和论坛给网络用户提供了更宽广的平台来交流信息和表达意见。这些文章和言论往往包含有丰富的个人情感,比如 对某部大片的影评,对某款手机的用户体验等,其中 蕴含着巨大的商业价值。如何从这些Web文本中进行情感挖掘,获取情感倾向已经成为当今商务智能领域关注的热点。所谓情感分析(sentimentanalysis),就是确定说话人或作者对某个特定主题的 — 139—

分类算法综述

《数据挖掘》 数据挖掘分类算法综述 专业:计算机科学与技术专业学号:S2******* 姓名:张靖 指导教师:陈俊杰 时间:2011年08月21日

数据挖掘分类算法综述 数据挖掘出现于20世纪80年代后期,是数据库研究中最有应用价值的新领域之一。它最早是以从数据中发现知识(KDD,Knowledge Discovery in Database)研究起步,所谓的数据挖掘(Data Mining,简称为DM),就从大量的、不完全的、有噪声的、模糊的、随机的、实际应用的数据中提取隐含在其中的、人们不知道的但又有用的信息和知识的过程。 分类是一种重要的数据挖掘技术。分类的目的是根据数据集的特点构造一个分类函数或分类模型(也常常称作分类器)。该模型能把未知类别的样本映射到给定类别中的一种技术。 1. 分类的基本步骤 数据分类过程主要包含两个步骤: 第一步,建立一个描述已知数据集类别或概念的模型。如图1所示,该模型是通过对数据库中各数据行内容的分析而获得的。每一数据行都可认为是属于一个确定的数据类别,其类别值是由一个属性描述(被称为类别属性)。分类学习方法所使用的数据集称为训练样本集合,因此分类学习又可以称为有指导学习(learning by example)。它是在已知训练样本类别情况下,通过学习建立相应模型,而无指导学习则是在训练样本的类别与类别个数均未知的情况下进行的。 通常分类学习所获得的模型可以表示为分类规则形式、决策树形式或数学公式形式。例如,给定一个顾客信用信息数据库,通过学习所获得的分类规则可用于识别顾客是否是具有良好的信用等级或一般的信用等级。分类规则也可用于对今后未知所属类别的数据进行识别判断,同时也可以帮助用户更好的了解数据库中的内容。 图1 数据分类过程中的学习建模 第二步,利用所获得的模型进行分类操作。首先对模型分类准确率进行估计,例如使用保持(holdout)方法。如果一个学习所获模型的准确率经测试被认为是可以接受的,那么就可以使用这一模型对未来数据行或对象(其类别未知)进行分类。例如,在图2中利用学习获得的分类规则(模型)。对已知测试数据进行模型

文本分类概述

第一章绪论 1.1研究背景 当今的时代,是一个信息技术飞速发展的时代。随着信息技术的飞速发展,科学知识也在短时间内发生了急剧的、爆炸性的增长。 据1998年的资料显示[1],70年代以来,全世界每年出版图书50万种,每一分钟就有一种新书出版。80年代每年全世界发表的科学论文大约500万篇,平均每天发表包含新知识的论文为1.3万-1.4万篇;登记的发明创造专利每年超过30万件,平均每天有800-900件专利问世。近二十年来,每年形成的文献资料的页数,美国约1,750亿页。另据联合国教科文组织所隶属的“世界科学技术情报系统”曾做的统计显示,科学知识每年的增长率,60年代以来已从9.5%增长到10.6%,到80年代每年增长率达12.5%。据说,一位化学家每周阅读40小时,光是浏览世界上一年内发表的有关化学方面的论文和著作就要读48年。而2005年的资料显示[2],进入20世纪后全世界图书品种平均20年增加一倍,册数增加两倍。期刊出版物,平均10年增加一倍。科技文献年均增长率估计为13%,其中某些学科的文献量每10年左右翻一番,尖

端科技文献的增长则更快,约2-3年翻一番。 同时,伴随着Internet的迅猛发展,网站和网页数也在迅速增长,大约每年翻一番。据估计,目前全世界网页数已高达2000亿,而Google宣称其已索引250亿网页。在我国,中国互联网络信息中心从2001年起每年都对中文网页总数作统计调查,统计结果显示,中文网页总数已由2001年4月30日的159,460,056个发展到2005年12月31日的24亿个,增长之快可见一斑[3,4]。 从这些统计数字可以看出,我们被淹没在一个多么浩大的信息海洋里!然而信息的极大丰富并没有提高人们对知识的吸收能力,面对如此浩瀚的信息,人们越来越感觉无法快速找到需要的知识。这就是所谓的“信息是丰富的,知识是贫乏的”。 如何在这样一个巨大的信息海洋中更加有效的发现和使用信息以及如何利用这个信息宝库为人们提供更高质量和智能化的信息服务,一直是当前信息科学和技术领域面临的一大挑战。尽管用户对图像、音频和视频等信息资源的需求也在急剧增加,但文本仍然是最主要的非结构化和半结构化的信息资源。针对目前的出版物和网络信息大部分都以文本形式存在的状况,自动文本分类技术作为处理和组织大量文本数据

中文文本分类算法设计及其实现_毕业设计

毕业设计(论文)任务书 毕业设计(论文) 题目中文文本分类算法的设计及其实现 电信学院计算机系84班设计所在单位西安交通大学计算机系

西安交通大学本科毕业设计(论文) 毕业设计(论文)任务书 电信学院计算机系84 班学生丰成平 毕业设计(论文)工作自2013 年 2 月21 日起至2013 年 6 月20 日止毕业设计(论文)进行地点:西安交通大学 课题的背景、意义及培养目标 随着文本文件的增多,对其自动进行分门别类尤为重要。文本分类是指采用计算机程序对文本集按照一定的分类体系进行自动分类标记。文本分类器的设计通常包括文本的特征向量表示、文本特征向量的降维、以及文本分类器的设计与测试三个方面。本毕设论文研究文本分类器的设计与实现。通过该毕业设计,可使学生掌握文本分类器设计的基本原理及相关方法,并通过具体文本分类算法的设计与编程实现,提高学生的实际编程能力。 设计(论文)的原始数据与资料 1、文本语料库(分为训练集与测试集语料库)。 2、关于文本分类的各种文献(包括特征表示、特征降维、以及分类器设计)以及资料。 3、中科院文本分词工具(nlpir)。 4、文本分类中需要用到的各种分类方法的资料描述。 课题的主要任务 1.学习文本特征向量的构建方法及常用的降维方法。 2.学习各种分类器的基本原理及其训练与测试方法。 3.设计并编程实现文本分类器。

毕业设计(论文)任务书 4、对试验结果进行分析,得出各种结论。 5、撰写毕业论文。 6、翻译一篇关于文本分类的英文文献。 课题的基本要求(工程设计类题应有技术经济分析要求) 1、程序可演示。 2、对源代码进行注释。 3、给出完整的设计文档及测试文档。 完成任务后提交的书面材料要求(图纸规格、数量,论文字数,外文翻译字数等) 1、提交毕业论文 2、提交设计和实现的系统软件源程序及有关数据 3、提交外文资料翻译的中文和原文资料 主要参考文献: 自然语言处理与信息检索共享平台:https://www.sodocs.net/doc/008661415.html,/?action-viewnews-itemid-103 Svm(支持向量机)算法:https://www.sodocs.net/doc/008661415.html,/zhenandaci/archive/2009/03/06/258288.html 基于神经网络的中文文本分析(赵中原):https://www.sodocs.net/doc/008661415.html,/p-030716713857.html TF-IDF的线性图解:https://www.sodocs.net/doc/008661415.html,/blog-170225-6014.html 东南大学向量降维文献:https://www.sodocs.net/doc/008661415.html,/p-690306037446.html 指导教师相明 接受设计(论文)任务日期2013-02-21~2013-06-20 学生签名:

分类目录用户研究综述

分类目录用户研究综述 1.分类目录研究现状 1.1分类目录的功能和优势 网络分类目录是应用分类的方法对巨大的网络资源进行组织和揭示的有效 手段。它可以提供浏览方式的信息查询途径,具有直观、易检的优点。分类目录的使用,可以使得用户更易查找到所需信息。 分类检索是以分类目录浏览方式提供信息查询途径, 一般称为网络分类目录。由专家选取一些网页, 以某种分类方法进行组织, 建立主题树分层目录, 并将采集、筛选后的信息分门别类地放人各大类或子类下面, 用户通过层层点击, 随着范围的缩小与查询专指度的提高, 最终满足用户的查询需求。网络分类目录在检索方面有以下优势: 1.分类浏览方式直观。在检索目的不明确、检索词不确定时, 分类浏览方式更有效率, 适合网络新手。 2.检准率高。网络分类目录由人工抓取、标引, 网页学术性强, 检索效果好。另一方面用户参与程度高, 在分类目录的指导下, 逐步明确用户的检索需求, 检索目的性更强更明确, 检索效率提高。尽管网络分类目录较检索法具有一定的优势, 但是, 要提高检全率、检准率, 采用科学的分类方法是至关重要的。分类标准是提供优质检索服务的重要保障。 1.2 中文搜索引擎分类目录状况 目前中文搜索引擎有70多种。其中, 只有“网络指南针”是采用《中图法》建立网络目录的。目前也只有两级类目的框架、内容不够丰富, 其他的中文搜索引擎都是自编的网络分类目录。由于缺乏统一的网络信息分类标准, 各搜索引擎的分类体系无法兼容, 用户检索需要适应各个搜索引擎不同的网络分类方法。例如, 搜狐的分类目录包括18个大类. 从这些搜索引擎网站分类目录状况可以得出以下结论: 1.网上搜索引擎应用的分类方法较文献分类法检索有其优越性。 2.在分类体系上, 采用以主题、事物为主的聚类方法, 替代了以学科为中心的聚类方法。即围绕某一主题、某一事物集中关于这一主题、这一事物的相关信息。例如, 在“雅虎”分类目录中查找“因特网”方面的信息,进人“电脑与因特网”

引文文本分类与实现方法研究综述

引文文本分类与实现方法研究综述 引文文本一般是指引文脚注所在的句子或与上下文句子的集合[1],能提供施引文献与被引文献之间关系的重要信息,具有重要的研究价值和意义。目前围绕引文文本的研究主要有引文文本分类、引用动机调查、引文主题抽取3个方向[2-5]。相对而言,引文动机调查和主题抽取的理论和方法比较成熟,而关于引文文本分类的研究文献数量众多,分类标准和实现方法各有不同,没有统一的模式[6]。近几年来,国内关于引文文本的研究文献逐渐增多,如文献[6]对引文文本分析方法的主要步骤和相关研究进展进行了综述;文献[7]概述了引文文本类型识别的步骤和实践进展;文献[8]尝试从概念、研究范畴、步骤和功能系统地构建引用内容(文本)分析的理论。然而这些文献中较少对不同的引文文本分类标准的特点进行归纳,对不同的分类方法的优缺点也没有系统梳理和对比。因此,本文拟在前人研究的基础上对中英文相关文献进行研读、梳理,系统总结归纳现有引文文本的各种分类标准及特点,对比分析引文文本分类实现方法的优缺点,理清引文文本分类的主要应用领域,剖析当前存在的问题,并对未来的研究重点进行展望。 1 引文文本的分类标准

引文文本的分类标准,主要是指科学家对引文文本进行内容分类分析时采取的角度或维度。在对引文文本分类的相关研究中,1993年,M.X.Liu[2]将相关研究的分析目的归纳为3个方面:提高检索效率,研究引用功能,研究引用质量。2004年,H.D.White[9]从情报学和语言学的不同学科角度,探讨了不同学科对引文文本分类方法的不同研究角度。2013年,祝清松等[7]在对引文类型标注方法进行综述的基础上将分类标注定为引用功能和观点倾向两类。笔者通过对主要综述性文献的比较和其他相关文献的广泛研读,认为引文文本的分类方式主要可分为以下5种类型。 1.1 基于引用功能的分类 引用功能是指被引文献在施引文献中起到的作用和产生的意义,早期对引用功能的研究以描述性讨论为主,功能定义比较单一,主要观点认为引文是对前人研究工作价值的肯定,是对知识产权的维护[10-14]。其中,具有代表性的是M.J.Moravicsik 与P.Murugesan[15]从4个不同维度对引文文本进行分类,特别是第一个维度——将引文文本分为概念性引用、操作性引用和其他功能的引用,超过一半的引用(53%)为概念的引用,仅有7%的引用属于其他功能的引用。其对引用功能的划分比较粗略,没

相关主题