搜档网
当前位置:搜档网 › 文本情感分析研究现状

文本情感分析研究现状

文本情感分析研究现状
文本情感分析研究现状

文本情感分析研究现状

机器之心专栏

作者:李明磊

作为NLP领域重要的研究方向之一,情感分析在实际业务场景中

存在巨大的应用价值。在此文中,华为云NLP算法专家李明磊为

我们介绍了情感分析的概念以及华为云在情感分析方面的实践和

进展。

基本概念

为什么:随着移动互联网的普及,网民已经习惯于在网络上表达意见和建议,比

如电商网站上对商品的评价、社交媒体中对品牌、产品、政策的评价等等。这些评价中都蕴含着巨大的商业价值。比如某品牌公司可以分析社交媒体上广大民众对该品牌的评价,如果负面评价忽然增多,就可以快速采取相应的行动。而这种正负面评价的分析就是情感分析的主要应用场景。

是什么:文本情感分析旨在分析出文本中针对某个对象的评价的正负面,比如「华为手机非常好」就是一个正面评价。情感分析主要有五个要素,(entity/实体, aspect/属性,opinio n/观点,holder/观点持有者,time/时间),其中实体和属性合并称为评价对象(target)。情感分析的目标就是从非结构化的文本评论中抽取出这五个要素

(entity 体, 输入文木

holder/?点持有者,time/ 时

|i

图i情感分析五要素

举例如下图:

我觉得华为手机非常牛逼。(华为手机*

图2情感分析五要素例子

上例中左侧为非结构化的评论文本,右侧为情感分析模型分析出的五个要素中的四个(不包括时间)。其中实体「华为手机」和属性「拍照」合并起来可以作为评价对象。评价对象又可细分为评价对象词抽取和评价对象类别识别。如实体可

以是实体词和实体类别,实体词可以是「餐馆」、「饭店」、「路边摊」,而实

体类别是「饭店」;属性可以是属性词和属性类别,如属性词可以是「水煮牛肉」、

「三文鱼」等,都对应了属性类别「食物」。实体类别和属性类别相当于是对实体词和属性词的一层抽象和归类,是一对多的关系。词和类别分别对应了不同的

任务。观点的取值范围一般是 {正面,负面,中性}。类似的,可以把观点看做 是对描述词的抽象和归类,如「好看」归为「正面」。

任务类型

当前研究中一般都不考虑情感分析五要素中的观点持有者和时间, 故后文中的讨 论都不考虑这两个因素。根据对剩下三个要素的简化,当前情感分析的主要任务 包括可按照图3所示:词级别情感分析、句子/文档级情感分析、目标级情感分 析。

图3情感分析任务体系

其中词级别和句子级别的分析对象分别是一个词和整个句子的情感正负向,

不区

分句子中具体的目标,如实体或属性,相当于忽略了五要素中的实体和属性这两

个要素。词级别情感分析,即情感词典构建,研究的是如何给词赋予情感信息, 如「生日」对应的情感标签是「正面」。句子级 /篇章级情感分析研究的是如何 给整个句子或篇章情感分祈

TG ABU

实萍分焚

n ■■ )■■

UffiiRff 自标诲曲収

目阮甘奂 r AfiSA

fi 懐蹲

4甜灵 ■性询師

打情感标签,女「今天天气非常好」对应的情感标签是「正面」

而目标级情感分析是考虑了具体的目标,该目标可以是实体、某个实体的属性或

实体加属性的组合。具体可分为三种:Target-grou nded aspect based

sen time nt an alysis (TG-ABSA), Target no aspect based sen time nt an alysis (TN-ABSA), Target aspect based sen time nt an alysis (T-ABSA). 其中

TG-ABSA的分析对象是给定某一个实体的情况下该实体给定属性集合下的各个属性的情感分析,如图4中的实体是汽车,属性集合是动力、外观、空间和油耗。

2 OT'SKtg压发或机动力强髙速12陡车没压力:外规是我和老gaSHSs欢的款;后排空匡有点小:有点费S3啊。

图4 TG-ABSA 例子

TN-ABSA的分析对象是文本中出现的实体的情感正负向,如图5中,实体华

为和XX的情感正负向分别为正面和负面。这种情况下没有属性的概念,只有实体。

倾手机比XX手机牛逼多了

* ?t ?

图5 TN-ABSA 例子

T-ABSA的分析对象是文本中出现的实体和属性组合,如图6所示,评价对象

是实体+属性的组合,如华为+拍照和XX+性价比。

华为的拍照牛逼药:XX的性价比很高。

图6 TG-ABSA 例子在清楚了目标级情感分析的分类之后,每个类别又都可以包含为两大类任务:第一个是评价对象的识别,第二个是情感识别。评价对象识别包括评价对象词抽取和评价对象词分类,情感识别包括评价词抽取和评价正负面分类。具体例子如图7所示。之所以要识别出对象词和评价词,是为了能够基于属性正负面过滤的时候可以高亮相应的评价文本片段。

手机内存非常大'系统流畅鼻性价比非常高。

评松词=勻£常高

i啲槪性:正面

图7评价对象和评价词和类别识别例子

本文主要介绍词级别情感分析、句子级情感分析和目标级情感分析中的

T-ABSA的内容、方法和华为云语音语义团队在该领域实践中的一些成果。这里首先区分一些概念,本文所说的情感,包括emotion 和sen time nt 两种

严格意义上来说sentiment 属于emotion 的一种,但是本文中不做区分。

词级文本情感分析

任务介绍

词级别的情感分析,即构建情感词典(sen time nt lexic on ),旨在给词赋予情感信息。这里首先要确定的是情感怎么表示,常见的表示方法有离散表示法和多维度表示法。离

文本情感分析综述

文本情感分析综述? 赵妍妍+, 秦兵, 刘挺 (哈尔滨工业大学计算机科学与技术学院信息检索研究中心, 黑龙江哈尔滨 150001) A Survey of Sentiment Analysis * ZHAO Yan-Yan+, QIN Bing, LIU Ting (School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China) + Corresponding author: Phn: +86-451-86413683 ext 800, E-mail: zyy@https://www.sodocs.net/doc/2d10630607.html, Abstract: Sentiment analysis is a novel research topic with the quick development of online reviews, which has drawn interesting attention due to its research value and extensive applications. This paper surveys the state-of-the-art research on sentiment analysis. First, three important tasks of sentiment analysis are summarized and analyzed in detail, including sentiment extraction, sentiment classification, sentiment retrieval and summarization; then the evaluation and corpus for sentiment analysis are introduced; finally the applications of sentiment analysis are concluded. This paper aims to take a deep insight into the mainstream methods and recent progress in this field, making detailed comparison and analysis. It is expected to be helpful to the future research. Key words: sentiment analysis; sentiment extraction; sentiment classification; sentiment retrieval and summarization; evaluation; corpus 摘 要: 文本情感分析是随着网络评论的海量增长而迅速兴起的一个新兴研究课题,其研究价值和应用价值受到人们越来越多的重视.本文对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为三项主要任务,即情感信息抽取,情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.文本重在对文本情感分析研究的主流方法和前沿进展进行概括,比较和分析,以期对后续研究有所助益. 关键词: 文本情感分析;情感信息抽取;情感信息分类;情感信息的检索与归纳;评测;资源建设 中图法分类号: TP391文献标识码: A 随着Web2.0的蓬勃发展,互联网逐渐倡导“以用户为中心,用户参与”的开放式构架理念.互联网用户由单纯的“读”网页,开始向“写”网页、“共同建设”互联网发展,并由被动地接收互联网信息向主动创造互联网信息迈进.因此,互联网(如:博客和论坛)上产生了大量的用户参与的,对于诸如人物、事件、产品等有价值的评论信息.这些评论信息表达了人们的各种情感色彩和情感倾向性,如“喜”、“怒”、“哀”、“乐”,和“批评”、“赞扬”等.基于此,潜在的用户就可以通过浏览这些主观色彩的评论,来了解大众舆论对于某一事件或产品的看法.由于越来越多的用户乐于在互联网上分享自己的观点或体验,这类评论信息迅速膨胀,仅靠人工的方法难以应对网上海量信 ?Supported by the National Natural Science Foundation of China under Grant Nos. 60803093, 60975055 (国家自然科学基金) and the “863” National High-Tech Research and Development of China via grant 2008AA01Z144(863计划探索类专题项目)

内容分析法与文本分析法

内容分析法与文本分析法比较研究 引自https://www.sodocs.net/doc/2d10630607.html,/blog/cns!3FFF8F6E2EEA6EDF!288.entry 内容分析法与文本分析法都是对用文字、图形、符号、声频、视频等纪录保存下来的资料内容作为分析的对象,在传播学的研究方法中,两者分属于定量分析与定质分析。虽然两者分析的对象有所关联,甚至重叠,但由于两者采用了不同的分析处理方法,因此,两者有所区别。如何正确认识两种方法的本质、相互关系以及两者整合应用的可能性,将是本文力图探究的问题。 一、概念 传播学家伯纳德·贝雷尔森曾于1952年发表的具有权威性的著作《内容分析:传播研究的一种工具》中,对内容分析法定义:“一种对具有明确特征的传播内容进行的客观、系统和定量的描述的研究技术”。 笔者对文本分析法如下定义:“按某一研究课题的需要,对一系列相关文本进行比较、分析、综合,从中提炼出评述性的说明”。 二、相似性 客观、系统以及非接触性的特征描述,不仅适用于内容分析法,对文本分析法也同样适用。 1、客观 用事实以及数据说话,是两者客观性的主要表现。所分析的对象,对于内容分析法来讲,是有明确特征的传播内容;对文本分析法来讲,则是十分显著的文本外部特征。它们都从不凭空推测分析对象背后可能含义,而依赖于固有的分析程序来得出结论;一旦研究目的与范围确定,就要尽量排除认为因素的影响,做到客观、无偏向。 2、系统 一般而言,内容分析与文本分析的对象都是大量的、系统化的、具有一定历时性的文献;都要面对如何确定调查范围和取样的问题。系统化调查取样是分析的基本前提,必须有足够的数据来克服可能出现的随机偏差。除语言符号分析等特殊情形之外,单个的、少量的文献通常不能作为分析的依据。 3、非接触性 内容分析与文本分析都是通过对二手资料进行的间接、非接触式的研究方法,这一点与社会调查、访谈、实验等研究方法有着根本的差异。 4、主观参与性 尽管两者都是基于事实进行分析,在内容分析法的运用中,由于作为关键的类目体系十分不稳定、不系统,经常因研究者及研究目的的不同而改变,这一过程的是相当主观的、人为的、定性的过程;文本分析法更因研究者为自身价值观念、政治立场、知识构架、认知体验所影响,而对文本中各种符号的“所指”得出不同结论。相对的主观性是两者不可避免的。 5、目的

本课题国内外研究现状分析

. Word资料●本课题国外研究现状分析 教育科研立项课题如何申报与论证博白县教育局教研室朱汝洪发布时间: 2009 年 4 月 2 日19 时24 分一、课题申报的基本步骤第一步: 阅读各级课题申报通知,明确通知的要求;第二步: 学习研究课题管理方面的文件材料;第三步: 学习研究《课题指南》,确定要申报的课题(可以直接选用《课题指南》中的课题,也可以自己确定课题);第四步:组织课题组,认真阅读关于填表说明的文字,研究清楚课题《申请评审书》各个栏目的填写要求;第五步: 根据《申请评审书》各栏目的要求分工查找材料和论证;第六步: 填写《申请评审书》草表;第七步: 研究确定后,填写《申请评审书》正式表(一律要求打印);第八步: 按要求复印份数;第九步: 按要求签署意见、加盖公章;第十步: 填写好《课题申报材料目录表》;第十一步: 按时将《申请评审书》《课题申报材料目录表》和评审费送交县教研室科研组转送市教科所(也可以直接送市教科报,但必须报县教研室备案)。

二、教育科研课题的选题1、课题的选题方法。 一是从上级颁发的课题指南中选定;二是结合学校的实际对课题指南中的课题作修改;三是完全从学校的实际出发确定课题。 2、课题的选题要依据的原则。 一是符合法规和政策;二是切合当地和学校实际;三是适合教师的水平和能力;四是切中当前教改热点。 3、课题名称的规表述。 ①研究,如小学生学习兴趣培养的研究。 ②实践与研究,如高中学生探究性学习的实践与研究。 ③应用研究,如合作学习理论在初中语文教学中的应用研究。 ④实验与研究,如杜郎口模式的实验与研究。 ⑤探索与研究,如农村寄宿制小学学生管理的探索与研究。 三、立项课题的论证例说(以2009 版市课题申报表的要求为准)1、课题论证的含义。 课题论证,也叫论证与设计、设计与论证,是对所要申报的课题的选题依据、研究目标、研究容、研究重点、研究难点、研究思路、研究步骤、研究条件等进行的阐述与设计。 2、课题论证的包括的容。 不同级别的课题申报表(课题申请、评审书)要求有所不同,但基本上包括两大方面的容: 一是关于本研究课题的论证,二是关于对课题实施的论证。 3、课题论证例说。

情感分析简述

情感分析简述 分类:NLP2012-04-08 12:38 1022人阅读评论(3) 收藏举报情感classification算法测试translationmatrix 情感分析,我研究了也有半年有余了,ACL Anthology上关于情感分析的论文也基本看过了一遍,但是到目前还没有什么成就的。以下是我为一位同学毕业设计写的情感分析方面的综述,引用的论文基本上是ACL 和COLING还有EMNLP上历年关于情感分析的论文,本文应该学术性比较强一点,本文虽不打算发表,但由于将来可能还有用,以及关于学术上的原因,请大家如果要引用请务必标明出处 (https://www.sodocs.net/doc/2d10630607.html,/s/blog_48f3f8b10100irhl.html)。 概述 情感分析自从2002年由Bo Pang提出之后,获得了很大程度的研究的,特别是在在线评论的情感倾向性分析上获得了很大的发展,目前基于在线评论文本的情感倾向性分析的准确率最高能达到90%以上,但是由于深层情感分析必然涉及到语义的分析,以及文本中情感转移现象的经常出现,所以基于深层语义的情感分析以及篇章级的情感分析进展一直不是很大。情感分析还存在的一个问题是尚未存在一个标准的情感测试语料库,虽然Bo Pang实验用的电影评论数据集(https://www.sodocs.net/doc/2d10630607.html,/people/pabo/movie-review-data/)以及Theresa Wilson等建立的MPQA(https://www.sodocs.net/doc/2d10630607.html,/mpqa/)是目前广泛使用的两类情感分析数据集,但是并没有公认的标准加以确认。 目前情感分析的研究基本借鉴文本分类等机器学习的方法,还没有根据自身的特点形成一套独立的研究方法,当然在某种程度上也可以把情感分析看出一种特殊的文本分类。比较成熟的方法是基于监督学习的机器学习方法,半监督学习和无监督学习目前的研究不是很多,单纯的基于规则的情感分析这两年已很少研究了。既然目前很多情感分析的研究基于机器学习,那么特征选择就是一个很重要的问题,N元语法等句法特征是使用最多的一类特征,而语义特征(语义计算)和结构特征(树核函数)从文本分类的角度看效果远没有句法特征效果好,所以目前的研究不是很多的。 由于基于监督学习情感分析的研究已经很成熟了,而且在真实世界中由于测试集的数量要远远多于训练集的数量,并且测试集的领域也不像在监督学习中被限制为和训练集一致,也就是说目前情感分析所应用的归纳偏置假设在真实世界中显得太强的,为了和真实世界相一致,基于半监督学习或弱指导学习的情感分析和跨领域的情感分析势必是将来的研究趋势之一。 在情感分析的最初阶段基于语义和基于规则的情感分析曾获得了比较大的重视,但是由于本身实现的复杂性以及文本分类和机器学习方法在情感分析应用上获得的成功,目前关于这方面的研究以及很少了,但是事实上,语义的相关性和上下文的相关性正是情感分析和文本分类最大的不同之处,所以将基于语义和规则的情感分析与基于机器学习的情感分析相结合也将是未来的研究趋势之一。 以下将分别对情感分析的起源,目前基于监督学习,无监督学习,基于规则和跨领域的情感分析的一些研究工作进行简单的介绍。 起源 虽然之前也有一些相关工作,但目前公认的情感分析比较系统的研究工作开始于(Pang et al., 2002)基于监督学习(supervised learning)方法对电影评论文本进行情感倾向性分类和(Turney,2002)基于无监督学习(unsupervised learning)对文本情感情感倾向性分类的研究。(Pang et al., 2002)基于文本的N元语法(ngram)和词类(POS)等特征分别使用朴素贝叶斯(Naive Bayes),最大熵(Maximum Entropy)和支持向量机(Support Vector Machine,SVM)将文本情感倾向性分为正向和负向两类,将文本的情感进行二元划分的做法也一直沿用至今。同时他们在实验中使用电影评论数据集目前已成为广泛使用的情感分析的测试集。(Turney ,2002)基于点互信息(Pointwise Mutual Information,PMI)计算文本中抽取的关键词和种子词(excellent,poor)的相似度来对文本的情感倾向性进行判别(SO-PMI算法)。 在此之后的大部分都是基于(Pang et al., 2002)的研究。而相对来说,(Turney et al.,2002)提出的无监督学习的方法虽然在实现上更加简单,但是由于单词之间的情感相似度难以准确的计算和种子词的难以确定,继续在无监督学习方向的研究并不是很多的,但是利用SO-PMI算法计算文本情感倾向性的思想却被很多研究者所继承了。 监督学习 目前,基于监督学习的情感分析仍然是主流,除了(Li et al.,2009)基于非负矩阵三分解(Non-negative Matrix Tri-factorization),(Abbasi et al.,2008)基于遗传算法(Genetic Algorithm)的情感分析之外,使用的最多的监督学习算法是朴素贝叶斯,k最近邻(k-Nearest Neighbor,k-NN),最大熵和支持向量机的。而对于算法的改进主要在对文本的预处理阶段。 一个和文本分类不同地方就是情感分析有时需要提取文本的真正表达情感的句子。(Pang et al., 2004)基于文本中的主观句的选择和(Wilson el al.,2009)基于文本中的中性实例(neutral instances)的分析,都是为了能够尽量获得文本中真正表达情感的句子。(Abbasi et al.,2008)提出通过信息增益(Information Gain,IG)的方法来选择大量特征集中对于情感分析有益的特征。 而对于特征选择,除了N元语法和词类特征之外,(Wilson el al.,2009)提出混合单词特征,否定词特征,情感修饰特征,情感转移特征等各类句法特征的情感分析,(Abbasi et al.,2008)提出混合句子的句法(N元语法,词类,标点)和结构特征(单词的长度,词类中单词的个数,文本的结构特征等)的情感分析。 除了对于文本的预处理,对于监督学习中情感分析还进行了以下方面的研究的。(Melville et al., 2009)和(Li et al.,2009)提出结合情感词的先验的基于词典的情感倾向性和训练文本中后验的基于上下文的情感情感倾向性共同判断文本的情感倾向性。(Taboada et al.,2009)提出结合文本的题材(描述,评论,背景,解释等)和文本本身的特征共同判断文本的情感倾向性。(Tsutsumi et al.,2007)提出利用多分类器融合技术来对文本情感分类。(Wan, 2008)和(Wan, 2009)提出结合英文中丰富的情感分析资源来提高中文情感分析的效果。 基于规则/无监督学习

基于深度学习的中文短文本情感分析

基于深度学习的中文短文本情感分析 随着互联网不断发展,网络评论平台不断增加,用户评论数量也 爆发式增长。利用情感分析技术能够有效的挖掘文本包含的情感信息,目前已成为社会舆情监督和厂家获取反馈信息的重要途径,具有很高的研究价值。本文的研究目的是探究中文短文本中所包含的情感信息,主要解决文本情感极性褒贬义分类问题。传统的情感分析方法主要有两种:基于情感词典的方法和基于机器学习的方法。但由于文本语料简短,含有大量未登录词使得上述方法存在数据稀疏问题,且过分依 赖领域专家的标注。近年来出现的深度学习技术能够很好的解决上述问题。因此,本文采用深度学习的方法对中文短文本进行情感分析。主要研究内容如下:首先,在文本数据预处理过程,针对目前网络上存在的大量未登录词,设计了一种新词发现方法,主要是利用词语的内 部凝固度、边界自由度及语言规则对候选新词进行过滤。将识别的新词加入词库,提高分词的准确率。其次,传统的词向量仅考虑了文本中的语义语法信息,会将语义相近,情感极性却相反的词语映射到相邻 的位置,导致最终分类结果错误。为了解决此问题,本文在传统词向量的基础上融合了情感信息,提出一种情感词向量的生成方法。最后, 针对循环神经网络在处理时序信息发生的梯度消失问题,本文提出基于GRU(Gated Recurrent Unit)的情感分析模型,将循环神经网络的隐层节点替换为GRU单元,用于情感分析。本文利用Python中的Keras 深度学习库构建提出的GRU情感分析模型,通过实验,找到模型最佳 参数,并在最佳参数下进行情感分析,其分类的准确率达到92.01%。

将其与机器学习模型SVM及深度学习模型LSTM,CNN进行对比实验,结果表明,在所有指标下,本文提出的以情感词向量作为输入的情感分析模型明显优于其他模型。

国内外研究现状总结

1、研究意义: 随着我国国民经济和城市化建设的飞速发展,大型商业综合体在当今商业创新模式的潮流和城市空间有机化、复合化的趋势下应运而生,数量日益增多,体量越来越大。这类公众聚集场所一般具有功能繁多、空间种类丰富、人流量大、火荷载大等特点,一旦发生火灾,容易导致重、特大人员伤亡和直接经济损失。近年来大型商业建筑火灾造成的人员伤亡事件屡有发生。国外的发展经验表明,当一个国家的人均GDP达到1000-3000美元时,社会将会处于一个灾难事故多发阶段,这表明我国当前及今后较长的一个时期,火灾安全形势依然十分严峻。 飞速发展的大型商业建筑,使用功能日趋复杂、集约,这给大型商业综合体的安全疏散设计带来了十分严峻的挑战。安全疏散,就是在发生火灾时,在允许的疏散时间范围中,使遭受火灾危害的人或贵重物资在楼内火灾未危及其安全之前,借助于各种疏散设施,有组织、安全、准确、迅速地撤离到安全区域。 大型综合性商业建筑的使用功能高度集中,现行规范都无法对其建筑形态和业态分布做出明确的规定,基于以往经验及科研成果制订出来的建筑防火设计规范难以适应新的需要,实践中经常遇到大量现行规范适应范围无法涵盖或规范条文无法适应建筑物设计形式的尴尬局面。现代大型商业综合体建筑的设计往往突破了现行规范,因此在一些经济发达的地区,也将性能化的防火设计理念引入到了设计之中,它已成为未来防火设计发展的趋势。 商业街建筑由于其独特性,有关消防设计也有别于一般的商业建筑。比如,商业街是否作为一个整体建筑考虑其消安全疏散设计,是否应限制商业街建筑的层数,长度和宽度,步行街是否考虑作为人员疏散安全区域及其条件等等这些问题都有待于进一步的调研及深入分析。 同时,由于这类建筑火灾危险性特别大,人员密度大,疏散困难等原因,研究大型商业建筑火灾下人员疏散的安全性,以最大限度的防止火灾发生和减少火灾造成的损失,就具有十分重要的意义。由于我国火灾基础研究的滞后在制定国家消防技术规范时存在一些弊端和不合理之处。这些弊端给复杂的商业建筑空间设计带来很多的局限性,因此要使大型商业建筑有效的快速发展这就需要我们找到新的途径和新的思路来保障建筑的安全疏散。 大型商业综合体的人员安全疏散设计应该综合相关多方因素全面考虑。处方式建筑防火安全疏散设计理念适应不了现代建筑的发展趋势,我们需要借鉴心理学等理论,研究发生火灾后,大型商场内人员在这样的环境中的空间认知能力和行为模式;从空间组织设计的角度出发,结合建筑性能化防火设计的理论全面的进行防火安全疏散设计的研究。这有助于科学合理的进行大型商场的建筑防火设计,当灾害来临时为人们提供一个可靠的安全疏散系统,同时又利于人们充分的使用空间的目标;同时,该课题的研究为促进大型商场发展作出努力,使得大型建筑在城市发展的新形式下可持续的发展。 大型商业综合体中防火分区面积往往超出了规范中对防火分区面积的限制,疏散出口的数量以及布置方式等问题随之产生,这些问题都有待进一步深入研究。本文从大型商业综合体的自身特性入手,运用建筑学、消防安全学和行为心理学等领域的相关知识,对火灾下大型商业综合体内人员疏散的安全性能进行了研究和分析,总结出大型商业综合体人员安全疏散的难点和重点问题,最后针对这些问题提出了一些优化策略和方法,并分析了应用部分方法的实际工程案例。为大型商业综合体的人员安全疏散设计提供参考。 2、国内外研究现状: (1)国外研究现状 国外发达国家对于大型商业综合体的设计,除了能依据本国的规范进行设计的之外,超出规范规定内容的往往利用了性能化的防火设计。欧美发达国家在这项研究中处于领先的地位,已开发出了很多计算及模拟软件。如FDS、SIMULEX和STEPS等等。 上世纪八十年代,己有一些国家颁布了专门的性能化防火设计规范。所以发展至今,已形成了相对完善的体系。国外的设计者在做一些大型的商业建筑时,都会采用性能化的防火设计。1971年,美国的通用事务管理局形成了《建筑火灾安全判据》。20世纪80年代,在美国实施了一个国家级的火灾风险评估项目,其结果形成了FRAMWORKS模型。1988年美国防火

情感文本分析

情感文本分析 [摘要]本文运用扎根理论对龙源2012年具有代表性的5种期刊中点击率高的30篇情感类文章进行文本分析,通过开放性和选择性编码,归纳出这些热点情感类文章的核心范畴,并以此构建了情感类文章的核心结构模型。通过分析该模型发现,婚姻冲突是情感类文章的关键,婚恋指导是情感类文章的核心,这两个要素是情感类文章写作与编辑时需要把握的两个重要指标,同时也是情感类期刊在组织文章时可资参考的一种结构。 [关键词] 情感类文章婚姻冲突婚恋指导扎根理论 一、引言 随着时代变迁和社会发展,人们的价值观和婚恋观也随之发生改变,由此产生了一系列社会问题,从而引发了人们对于当今社会情感婚姻问题的探讨,作为情感类期刊,它其中的文章更要直接面对这个问题。本文将以龙源2012年具有代表性的5种情感类期刊中点击率高的情感类文章为例,运用扎根理论,深入分析这类文章受欢迎的因素。 二、概念界定 本部分主要对本文涉及的术语进行界定,厘清其概念,为后文的研究奠定基础。 (一)情感类期刊 随着人民生活水平的提高,除却对物质方面的追求外,人们开始越来越重视对情感方面的追求。正因如此情感类期刊在我国有很好的发行量,例如《知音》、《家人》、《家庭》、《婚姻与家庭》、《恋爱婚姻与家庭》、《爱情婚姻与家庭》等知名情感类期刊,都深受读者的好评。情感类期刊有一个共同的特点,就是能够从读者的某种需求切入,投影,准确抓住读者心灵和情感层面的特殊需求,坚持自己的办刊特色,并狠抓文章在这一理念上的品质,把文章质量做到了一种极致,深深扎入读者的心灵和生活当中。 (二)扎根理论 扎根理论研究法是由芝加哥大学的Barney Glaser和哥伦比亚大学的Anselm Strauss两位学者共同发展出来的一种研究方法,是运用系统化的程序,针对某一现象来发展并归纳式地引导出扎根的理论的一种定性研究方法。扎根理论研究法就是,在研究开始之前研究者一般没有理论假设,而是带着研究问题将收集到的原始资料进行思考、比较、分析、归类、概念化并加以关联和建构,并将隐藏在资料中的理论通过研究者的理论触觉挖掘出来,扎根理论的本质是归纳法,主旨是在经验资料的基础上构建理论。 三、基于扎根理论的情感类文章文本分析 为了挖掘情感类文章受欢迎的因素,本文根据龙源网提供的5家具有代表性的期刊《伴侣》、《婚姻与家庭》、《家庭》、《恋爱婚姻家庭》和《人生与伴侣》五家期刊社的《2012年度个刊数据分析报告》,选择其中每家刊社2012年度国内阅读TOP10文章作为研究素材,在逐篇阅读和分析之后,从中筛选出内容涉及情感婚恋的文章,共30篇。最终确定这30篇文章为本文深入研究的对象。 1、挖掘情感类文章的相关概念 研究者以开放的心态基于资料,贴近数据,用概念来表达数据,并将具有相似属性的概念进行归类形成范畴。对文本进行开放编码,逐句逐段进行分析,使得编码契合数据。抽取相关的概念,对所得到的概念及其范畴反复考察,最终从文章中抽取出119个概念和20个范畴。概念数量庞杂而且有交叠,范畴则是对概念的重新分类整合,成为后续研究的重点。挖掘出的20个范畴(A1~A20)分别为爱情观、婚后夫妻沟通、婚姻危机、婚后理性处事、婚姻观、婚姻调适、幸福生活、夫妻性生活、专家意见、现实压力、婚姻问题、异国婚姻、残疾人婚恋、法律纠纷、奇妙缘分、恋爱故事、新式婚恋、养育子女、名人婚恋、违法犯罪。经过多次整理分析得到如下范畴,表1为情感类文本开放编码形成的范畴。

文本情感分析研究现状

文本情感分析研究现状 机器之心专栏 作者:李明磊 作为NLP 领域重要的研究方向之一,情感分析在实际业务场景中 存在巨大的应用价值。在此文中,华为云NLP 算法专家李明磊为 我们介绍了情感分析的概念以及华为云在情感分析方面的实践和 进展。 基本概念 为什么:随着移动互联网的普及,网民已经习惯于在网络上表达意见和建议,比如电商网站上对商品的评价、社交媒体中对品牌、产品、政策的评价等等。这些评价中都蕴含着巨大的商业价值。比如某品牌公司可以分析社交媒体上广大民众对该品牌的评价,如果负面评价忽然增多,就可以快速采取相应的行动。而这种正负面评价的分析就是情感分析的主要应用场景。 是什么:文本情感分析旨在分析出文本中针对某个对象的评价的正负面,比如「华为手机非常好」就是一个正面评价。情感分析主要有五个要素,(entity/实体,aspect/属性,opinion/观点,holder/观点持有者,time/时间),其中实体和属性合并称为评价对象(target)。情感分析的目标就是从非结构化的文本评论中抽取出这五个要素。

图1 情感分析五要素 举例如下图: 图2 情感分析五要素例子 上例中左侧为非结构化的评论文本,右侧为情感分析模型分析出的五个要素中的四个(不包括时间)。其中实体「华为手机」和属性「拍照」合并起来可以作为评价对象。评价对象又可细分为评价对象词抽取和评价对象类别识别。如实体可以是实体词和实体类别,实体词可以是「餐馆」、「饭店」、「路边摊」,而实体类别是「饭店」;属性可以是属性词和属性类别,如属性词可以是「水煮牛肉」、「三文鱼」等,都对应了属性类别「食物」。实体类别和属性类别相当于是对实体词和属性词的一层抽象和归类,是一对多的关系。词和类别分别对应了不同的

国内外研究现状和发展趋势

北京市绿化隔离带可持续经营技术及效益评价 二、项目所属领域国内外研究开发现状和发展趋势 1、由城市绿地到城市林业的发展 城市绿地是城市中一种特殊的生态系统,它是城市系统中能够执行“吐故纳新”负反馈调节机制的子系统。这个系统一方面能为城市居民提供良好的生活环境,为城市生物提供适宜的生境;另一方面能增强城市景观的自然性、促进城市居民与自然的和谐共生。它是城市现代化和文明程度的重要标志。 绿地(green space)一词,各国的法律规范和学术研究对它的定义和范围有着不同的解释,西方城市规划概念中一般不提城市绿地,而是开敞空间(Open Space),我国建国以来一直延用原苏联的绿地概念,包括城市区域内的各类公园、居住区绿地、单位绿地、道路绿化、墓地、农地、林地、生产防护绿地、风景名胜区、植物覆盖较好的城市待用地等。 尽管各国关于开敞空间(或绿地)的定义不尽相同,但它们都强调了开敞空间(或绿地)在城市中的自然属性,即都是为了保持、恢复或建立自然景观的地域。绿地作为城市的一种景观,是城市中保持自然景观,或使自然景观得到恢复的地域,是城市自然景观和人文景观的综合体现,是城市中最能体现生态性的生态空间,是构成城市景观的重要组成部分。在结构上为人工设计的植物景观、自然植物景观或半自然植物景观。绿地在城市中的功能和作用主要包括:组织城市空间的功能、生态功能(改善生态环境的功能、生物多样性保护功能)、游憩休闲功能、文化(历史)功能、教育功能、社会功能、城市防护和减灾功能。 城市绿地发展和研究进程包括:城市绿地思想启蒙阶段、城市绿地规划思想形成阶段、城市绿地理论和方法的发展阶段、城市绿地生态规划和建设阶段。 吴人韦[1]、汪永华[2]、胡衡生[3]等从城市公共绿地的起源开始介绍了国外城市绿地的发展历程,认为国外的城市绿地建设经历了从公园运动(1843~1887)、公园体系(1880~1890)、重塑城市(1898~1946)、战后大发展(1945~1970)、生物圈意识(1970年以后)等一系列由简单到复杂的城市绿地发展过程,其中“重塑城市”阶段提出了“田园城市”和城市绿带概念,绿带网络提供城区间的隔离、交通通道,并为城市提供新鲜空气。“有机疏散”理论中的城市与自然的有机结合原则,对以后的城市绿化建设具有深远的影响。1938年,英国议会通过了绿带法案(Green Belt Act)。1944年的大伦敦规划,环绕伦敦形成一道宽达5英里的绿带。1955年,又将该绿带宽度增加到6~10英里。英国“绿带政策”的主要目的是控制大城市无限蔓延、鼓励新城发展、阻止城市连体、改善大城市环境质量。早在1935年,莫斯科进行了第一个市政建设总体规划,规划在城市用地外围建立10公里宽的“森林公园带”;1960年调整城市边界时,“森林公园带”进一步扩大为10~15公里宽,北部最宽处达28公里;1971年,莫斯科采用环状、楔状相结合的绿地布局模式,将城市分隔为多中心结构。目前,德国城市森林建设已取得了让世人瞩目的成绩,其树种主要为乡土树种,基本上是高大的落叶乔木(栎类、栗类、悬铃木、杨树、核桃、欧洲山毛榉等)[4]。在绿化城

文本情感分析

ISSN 1000-9825, CODEN RUXUEW E-mail: jos@https://www.sodocs.net/doc/2d10630607.html, Journal of Software, V ol.21, No.8, August 2010, pp.1834?1848 https://www.sodocs.net/doc/2d10630607.html, doi: 10.3724/SP.J.1001.2010.03832 Tel/Fax: +86-10-62562563 ? by Institute of Software,the Chinese Academy of Sciences. All rights reserved. 文本情感分析 ? 赵妍妍+ , 秦兵, 刘挺 (哈尔滨工业大学计算机科学与技术学院信息检索研究中心,黑龙江哈尔滨150001) Sentiment Analysis ZHAO Yan-Yan + , QIN Bing, LIU Ting (Center for Information Retrieval, School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China) + Corresponding author: E-mail: yyzhao@https://www.sodocs.net/doc/2d10630607.html, Zhao YY, Qin B, Liu T. Sentiment analysis. Journal of Software, 2010,21(8):1834?1848.https://www.sodocs.net/doc/2d10630607.html,/ 1000-9825/3832.htm Abstract: This paper surveys the state of the art of sentiment analysis. First, three important tasks of sentiment analysis are summarized and analyzed in detail, including sentiment extraction, sentiment classification, sentiment retrieval and summarization. Then, the evaluation and corpus for sentiment analysis are introduced. Finally, the applications of sentiment analysis are concluded. This paper aims to take a deep insight into the mainstream methods and recent progress in this field,making detailed comparison and analysis. Key words: sentiment analysis; sentiment extraction; sentiment classification; sentiment retrieval and summarization; evaluation; corpus 摘要: 对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为3项主要任务,即情感信 息抽取、情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分 析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.重在对文本情感分析研究的主流方法和前 沿进展进行概括、比较和分析. 关键词: 文本情感分析;情感信息抽取;情感信息分类;情感信息的检索与归纳;评测;资源建设 中图法分类号: TP391 文献标识码: A 随着Web2.0的蓬勃发展,互联网逐渐倡导“以用户为中心,用户参与”的开放式构架理念.互联网用户由单纯 的“读”网页,开始向“写”网页、“共同建设”互联网发展,并由被动地接收互联网信息向主

文本聚类的现状研究

1 文本聚类研究现状 1 文本聚类研究现状 Internet 已经发展为当今世界上最大的信息库和全球范围内传播信息最主要的渠道。随着Internet 的大规模普及和企业信息化程度的提高,各种资源呈爆炸式增长。在中国互联网络信息中心(CNNIC)2007 年 1 月最新公布的中国互联网络发展状况统计报告中显示,70.2% 的网络信息均以文本形式体现。对于这种半结构或无结构化数据,如何从中获取特定内容的信息和知识成为摆在人们面前的一道难题。近年来,文本挖掘、信息过滤和信息检索等方面的研究出现了前所未有的高潮。 作为一种无监督的机器学习方法,聚类技术可以将大量文本信息组成少数有意义的簇,并提供导航或浏览机制。 文本聚类的主要应用点包括: (1) 文本聚类可以作为多文档自动文摘等自然语言处理应用的预处理步骤。其中比较典型的例子是哥伦比亚大学开发的多文档自动文摘系统Newsblaster[1] 。该系统将新闻进行 聚类处理,并对同主题文档进行冗余消除、信息融合、文本生成等处理,从而生成一篇简明扼要的摘要文档。 (2) 对搜索引擎返回的结果进行聚类,使用户迅速定位到所需要的信息。比较典型的系统有Infonetware Real Term Search 。Infonetware 具有强大的对搜索结果进行主题分类的功能。另外,由Carrot Search 开发的基于Java 的开源Carrot2 搜索结果聚合聚类引擎2.0 版也是这方面的利用,Carrot2 可以自动把自然的搜索结果归类( 聚合聚类) 到相应的语义类别中,提供基于层级的、同义的以及标签过滤的功能。 (3) 改善文本分类的结果,如俄亥俄州立大学的Y.C.Fang 等人的工作[2] 。 (4) 文档集合的自动整理。如Scatter/Gather[3] ,它是一个基于聚类的文档浏览系统。 2 文本聚类过程 文本聚类主要依据聚类假设:同类的文档相似度较大,非同类的文档相似度较小。作为一种无监督的机器学习方法,聚类由于不需要训练过程、以及不需要预先对文档手工标注类别,因此具有较高的灵活性和自动化处理能力,成为对文本信息进行有效组织、摘要和导航的重要手段。文本聚类的具体过程如图 1 所示。 图 1 文本聚类过程 2.1 文本信息的预处理 文本聚类的首要问题是如何将文本内容表示成为数学上可分析处理的形式,即建立文本特

中文微博情感分析评测结果(2012)

2012年CCF自然语言处理与中文计算会议 中文微博情感分析评测结果 1.提交结果编号 本次评测共有34支队伍提交53组有效结果,提交结果编号及所属参评单位对应情况如表1所示。 表1 提交结果编号与参评单位对照表 提交结果编号参评单位 1 北京工商大学 2 北京工商大学 3 北京航空航天大学计算机学院 4 北京航空航天大学计算机学院 5 北京理工大学海量语言信息处理与云计算应用工程技术研究中心1 6 北京理工大学网络搜索挖掘与安全实验室 7 北京理工大学海量语言信息处理与云计算应用工程技术研究中心2 8 北京理工大学海量语言信息处理与云计算应用工程技术研究中心2 9 大连理工大学 10 大连理工大学 11 广东工业大学DMIR实验室 12 哈尔滨工业大学语言技术研究中心网络智能研究室 13 哈尔滨工业大学语言技术研究中心网络智能研究室 14 哈尔滨工业大学计算机科学与技术学院/机器智能与翻译研究室 15 哈尔滨工业大学计算机科学与技术学院/机器智能与翻译研究室 16 哈尔滨工业大学(威海) 17 海军工程大学信息安全系 18 黑龙江大学计算机科学技术学院 19 湖南工业大学计算机与通信学院 20 湖南工业大学计算机与通信学院 21 湖南科技大学外国语学院 22 华侨大学计算机科学与技术学院 23 华侨大学计算机科学与技术学院 24 华中科技大学 25 南京大学计算机科学与技术系自然语言处理研究组 26 南京理工大学 27 南京理工大学 28 清华大学计算机系智能技术与系统国家重点实验室信息检索组 29 清华大学计算机系智能技术与系统国家重点实验室信息检索组 1参评队伍联系人为刘全超 2参评队伍联系人为王金刚

国内外研究现状分析及评价1

国内外研究现状分析及评价 供给侧结构性改革无疑是今年全国两会的热词,而作为经济运行的“血液”,金融业在推动供给侧结构性改革方面扮演着重要角色,尤其是中国互联网金融业自诞生之日起就努力为众多小微企业和个人的创新创业活动提供普惠金融服务。而农业自古以来就是中国国民经济的基础,为了实现我国经济腾飞及综合实力的提高。我国一直在探索农业发展的道路,现在的中国农业在社会、经济和生态等和各个方面都取得了巨大成就。但在农业科技、经济和各个方面存在问题,严重制约着农业的发展。我国农业的发展必须确定明确的目标,选择适合我国实情的农业发展模式,最终实现农业现代化,那么如何让蓬勃发展的互联网金融运用到农业供给侧改革,从而推动农业提速发展成为了学者们研究的课题。目前,我国著名学者李宏畅与袁娟率先提出来互联网金融与农业相结合的发展的几种模式。(一)农业智能模式 当前在很多先进农场里,奶牛的耳朵上都会有一颗非常精致、特别的“耳钉”,即奶牛的电子耳标,这个“耳钉”里蕴藏着这头奶牛区别于其他奶牛的信息。散养在农场里的奶牛,当它悠闲的进入挤奶大厅时,它身上的所有信息就会被感应器所感应,然后被计算机扫描,进入电脑,信息包括它的所有信息:出生日期、最后一次挤奶日期、交配时间等等,所有信息都一目了然,这些都突出体现出了农业智能模式的优越性。 (二)电商模式 淘宝之所以成功,最主要的原因就是其站在了顾客的角度去思考问题,把顾客所需要的东西当作了自己所需要的东西,将市场划分到最小化,将产品包装减到最轻,而且注重产品特色、模式和内容,把简单的“B2C”模式转化为“B2C2B”,并不断改进产品品质,逐渐实现了电商模式。目前,农村电商逐渐成为巨头们布局的重点。但是由于网络基础设施不健全等各种因素限制,农村市场的电商需求远远未被满足,是一个典型的蓝海市场,含金量十足。然而,农村电商市场要被很好地开发出来还是面临着许多挑战,这也与农村市场的特性紧密相关,农民购物的便利性与网购信任度是农村市场电商发展的主要瓶颈。 (三)产业链模式 一方面农业产业链融资模式改变了以往农村金融服务方式,采用一对一模式,借助农民专业合作社、龙头企业等平台,采用批量作业、降低借贷双方交易成本的

开题报告(文献综述)-在线评论分析系统的情感分析

开题报告(文献综述)-在线评论分析系统的情感分析本科毕业设计(论文)开题报告 论文题目在线评论分析系统的情感分析开题报告内容: 一、选题的背景及意义 近年来,在“大数据”(Big Data)时代的背景下,随着电子商务行业的蓬勃发展,网络购物平台、手机APP应用市场平台等不仅为用户提供了大量商品信息,同时还允许用户参与商品评论。它不仅为商家提供了一个信息的展示平台以发布新产品的规格数据,也为消费者提供了一个产品使用体验交流以及质量评价的平台。因此很多网络用户在购买或使用某类产品前,往往会选择先上网浏览一些该产品的相关信息,尤其是其他用户的使用体验,多方比较产品的性能,从而使自己的消费和选择更趋理性化。分析这些评论信息,蕴含着巨大的商业价值和社会价值,具有很大的现实意义。 然而,这些主观性评论文本每天以指数级的速度增长,仅靠人工方式难以进行 收集、处理和分析。因此采用计算机技术来自动地分析这些主观性文本表达的情感,成为目前数据挖掘(Data Mining)研究的一个热点,而这个热点的研究方向就是文本情感分析(Sentiment Analysis)。 文本情感分析,也称为意见挖掘(Opinion Mining),是指通过分析和挖掘文本中的表达情感、观点和立场的主观性信息并判断其情感倾向。它涉及自然语言处理(Natural Language Processing)、计算机语言学(Computational Linguistics)、机器学习(Machine Learning)、信息检索(Information Retrieval)等众多领域,在计算机科学、管理学、政治学、经济学和社会学方向都有广泛的应用。进入21 世纪以后,情感分析这个领域变得活跃起来,吸引越来越多的学者投入其中。目前

024047中文文本情感倾向性分析

中文文本情感倾向性分析1 黄萱菁 赵 军 复旦大学 关键词:情感倾向 语料库 引言 大约在两年半前,《新华网》、《环球时报》等大众媒体纷纷转载了英国《新科学家》杂志的一则报道,英国Corpora软件公司开发了一套名为“感情色彩(Sentiment)”的软件2,它能判断报纸刊登的文章对一个政党的政策是持肯定态度还是否定态度,或者网上的评论文章是称赞还是贬低一种产品,并以此帮助政府和一些大公司全面了解公众对他们的看法。这则报道之所以引起了舆论的广泛关注,是因为它介绍了一个非常新颖而又很有价值的研究方向—文本情感倾向性分析。 所谓文本情感倾向性分析,就是对说话人的态度(或称观点、情感)进行分析,即对文本中的主观性信息进行分析。由于立场、出发点、个人状况和偏好的不同,民众对生活中各种对象和事件所表达出的信念、态度、意见和情绪的倾向性必然存在很大的差异。在论坛、博客(blog)等反应草根观点的网络媒体上,这种差异表现得尤为明显。 长期以来,要了解关于某个问题的报道是正面的还是反面的,是消极的还是中立的,往往需要求助于调查公司。这些公司的员工仔细阅读有关某个机构、个人、事件或问题的所 1 本项研究受国家自然科学基金课题资助(60673038,60673042)。 2 https://www.sodocs.net/doc/2d10630607.html,/products/sentiment.aspx 图1 英国Corpora软件公司的“感情色彩(Sentiment)”的软件

专题报道 有文字,然后就这些评论的态度做出反馈。这不仅耗费了大量人力和财力,而且过程相当缓慢。由此可见,文本情感倾向性的自动分析具有很好的商业应用前景。 文本情感倾向性分析属于计算语言学的范畴。以前,在计算语言学以及相关领域,研究人员普遍关注的是客观性信息的分析和提取,对主观性信息分析与提取的研究尚处于起步阶段,其中存在的很多问题都需要进行全面探索。这项研究涉及到计算语言学、人工智能、机器学习、信息检索和数据挖掘等多方面研究内容,因此文本情感倾向性分析也具有重要的学术研究价值。 总体来看,文本情感倾向性分析的研究大致可以分成词语情感倾向性分析、句子情感倾向性分析、篇章情感倾向性研究以及海量信息的整体倾向性预测等四个研究层次。接下来将首先介绍在各个层次所取得的研究进展,其次介绍情感倾向性分析标准语料库的建设和系统评测,最后是本文的结论。 词语情感倾向性分析 对词语的情感倾向进行研究是文本情感倾向分析的前提。具有情感倾向的词语以名词、动词、形容词和副词为主,包括人名、机构名、产品名、事件名等命名实体。其中,除部分词语的褒贬性(或称为极性,通常分为褒义、贬义和中性三种)可以通过查词典3的方式得到之外,其余词语的极性都无法直接获得。此外,词语的情感倾向还包括倾向性的强烈程度。例如,“谴责”的强度就远远超过了“批评”和“指责”,而这种强度很难由词典编撰者用人工的方式进行量化。另外,词语的极性往往取决于特定的上下文环境,例如,“骄傲”在表示“自豪”概念时,是褒义词;而在表示“自满”概念时,则是贬义词。 词语情感倾向分析包括对词语极性、强度和上下文模式的分析。其分析结果甚至可以写入到语义词典中,如北京大学计算语言学研究所以基于人民日报基本标注语料库的真实文本为实例,进行统计归纳得到词语的情感倾向,而后在现代汉语语法信息词典中实现形式化[1]。词语情感倾向分析目前主要有以下三种方法:1.由已有的电子词典或词语知识库扩展生成情感倾向词典。英文词语情感倾向信息的获取主要是在WordNet4和General Inquirer5的基础上进行的文献[3-4] ;而中文词语情感倾向信息的获取依据主要有HowNet[5]。这种方法的主要思想是,给定一组已知极性的词语集合作为种子,对于一个情感倾向未知的新词,在电子词典中找到与该词语义相近并且在种子集合中出现的若干个词,根据这几个种子词的极性,对未知词的情感倾向进行推断。这种方法对种子词数量的依赖比较明显。 2.无监督机器学习的方法。这种方法与第1种方法类似,也是假设已经有一些已知极性的词语作为种子词,对于一个新词,根据它和种子词的紧密程度对其情感倾向性进行推断。不同的是,第1种方法的词语紧密程度的度量是以词典信息为依据判断,而这种方法是根据词语在语料库中的同现情况判断其联系紧密程度。根据文献[6-7]的经典方法,假设以“真”、“善”、“美”作为褒义种子词,“假”、“恶”、“丑”作为贬义种子词,则任意其它词语的语义倾向定义为,将与各褒义种子词的点态互信息量(Point of Contact Information,PMI)之和,减去与各贬义种子词的点态互信息量之和后所得的结果。语义倾向的正负号就可以表示词语的极性,而绝对值 3 例如,General Inquirer [Stone,1966],知网:heep://https://www.sodocs.net/doc/2d10630607.html, 4 WordNet 5 通用查询者,最早为KWIC编写的程序之一,该程序根据基于理论编写的词典给单词分类。

相关主题