搜档网
当前位置:搜档网 › 中文多标签文本分类算法研究

中文多标签文本分类算法研究

上海交通大学硕士学位论文目录

目录

第一章绪论 (1)

1.1 研究背景和意义 (1)

1.2 多标签分类 (2)

1.3 国内外研究现状 (3)

1.4 论文的结构安排 (6)

第二章多标签文本分类相关技术 (7)

2.1 文本分类的定义及过程 (7)

2.1.1 文本分类的定义 (7)

2.1.2 文本分类的一般过程 (7)

2.1.3 多标签文本分类评估方法 (8)

2.2 文本分类的分类方法 (9)

2.2.1 决策树算法 (9)

2.2.2 Ricchio算法 (10)

2.2.3 KNN算法 (11)

2.2.4 神经网络算法 (12)

2.2.5 朴素贝叶斯算法 (13)

2.2.6 支持向量机 (14)

2.3 本章小结 (14)

第三章基于中文多标签分类的特征选择 (16)

3.1 文本特征选择 (16)

3.2 特征选择方法 (17)

3.2.1 过滤无意义信息 (17)

3.2.2 汉语文本自动分词 (17)

3.2.3 汉语文本粗降维 (18)

3.2.4 文本表示模型 (18)

3.2.5 常用特征选择方法 (19)

3.3 改进的特征选择方法 (20)

3.3.1 强类别纹理挖掘算法 (20)

3.3.2 常用权重计算方法 (21)

III

万方数据

上海交通大学硕士学位论文目录

3.3.3 改进的特征选择和加权抽取 (22)

3.4 多标签分类特征选择算法的框架 (24)

3.5 本章小结 (25)

第四章相关信息加权的自适应多标签分类算法 (26)

4.1 常用多标签分类算法 (26)

4.1.1 Navie-Bayes算法 (26)

4.1.2 ML-Knn算法 (27)

4.1.3 RAkEL算法 (27)

4.2 信息加权模型算法 (28)

4.3 WeightedLabelPower投票预测 (29)

4.4 多标签分类算法的框架 (29)

4.5 本章小结 (31)

第五章实验及结果分析 (32)

5.1 多标签文本分类数据集 (32)

5.2 多标签文本分类特征选择实验 (33)

5.2.1 强特征挖掘实验 (33)

5.2.2 改进的特征选择和加权抽取实验 (34)

5.3 相关信息加权的自适应多标签分类实验 (37)

5.3.1 实验环境 (37)

5.3.2 实验数据 (37)

5.3.3 结果分析 (41)

5.4 本章小结 (45)

第六章总结与展望 (46)

6.1 本文工作总结 (46)

6.2 研究展望 (46)

参考文献 (48)

致谢 (53)

攻读硕士期间发表的论文以及专利 (54)

IV

万方数据

上海交通大学硕士学位论文图录

图录

图2-1文本分类一般过程 (8)

图2-2决策树算法表示图 (10)

图2-3KNN算法表示图 (12)

图2-4神经网络算法表示图 (12)

图2-5支持向量机模型示意图 (14)

图3-1系统整体模型图 (16)

图3-2文档的向量空间模型示意图 (18)

图5-1强特征挖掘流程图 (34)

图5-2用于类别描述的特征选择方法流程图 (35)

图5-3多标签文本分类系统流程图 (38)

图5-4分词器初始化 (40)

图5-5强特征和多标签结合一 (40)

图5-6强特征和多标签结合二 (40)

图5-7强特征和多标签结合三 (41)

图5-8E MOTIONS数据集评价指标图表趋势 (43)

图5-9S CENE数据集评价指标图表趋势 (43)

图5-10Y EAST 数据集评价指标图表趋势 (44)

图5-11同济新闻数据集评价指标图表趋势 (44)

V

万方数据

上海交通大学硕士学位论文表录

表录

表2-1多标签性能指标评估公式 (9)

表4-1测试集训练实例 (28)

表4-2类标签间的权重 (29)

表4-3W EIGHTED L ABEL P OWER投票预测 (29)

表5-1数据实例集描述 (33)

表5-2数据实例集强特征纹理描述 (33)

表5-3同济新闻语料库部分强特征输出 (39)

表5-4E MOTIONS数据集性能比较 (41)

表5-5S CENE 数据集性能比较 (42)

表5-6Y EAST数据集性能比较 (42)

表5-7同济新闻数据集性能比较 (42)

VI

万方数据

上海交通大学硕士学位论文第一章绪论

第一章绪论

1.1研究背景和意义

伴随着互联网信息技术的发展,世界正处于信息爆炸却缺乏知识汲取的时代。

在中文信息领域里,我国网民已超六亿人,而且互联网普及率也达45%以上。在

移动互联网中,手机网民规模为超过4.5亿,随着日新月异的智能手机技术,使

用手机上网的网民也被证实为是所有网名中的主力军。与此同时,移动互联网将

进一步发展,崭新的服务形态、商业模式、高端技术也将不断涌现,在与大数据、云计算应用的深度融汇的过程中,催生出新兴的电子商业模式,将在不久的将来

逐渐对互联网产业产生巨大影响,甚至很大程度上影响到社会经济的未来发展。

不止是“双十一”,“双十二”等电子购物节,网络经济日趋明显地突显出自己在

中国经济中饰演的角色。即使世界处于经济增长乏力的大环境,互联网产业却如

朝阳般展现出前所未有的发展潜力。

英特网信息资源中存在着海量诸如文本、图像和音乐等各语种数据等的多标签分类问题。然而如何在信息中迅速且又高效地挖掘有用信息,准确过滤并定位

出可用信息,已日渐成为数据挖掘领域的主流方向。信息化时代越来越迫切地需

求自动快速且精度准确的文本分类,基于机器学习的自动文本分类方法正在成为

当今领域内的重要研究课题。

数据分类是指前期利用训练样本集所构建的模型体系将测试样本集划分到不定项个类别的方法。传统单标签分类假设类别间关系是相互独立,单个样本只能

确定地归于其中某一个类别,现有的算法可支持部分语料库分类精确度高达90%

以上。多标签分类问题指的是,由于数据样本的复杂性分布,在实际应用中,分

类样本往往会和多个类别相关联,同样,在互联网信息日趋人工智能及个性化定

制的特定环境下,需要将样本准确同时定位到多个类别中。例如一张偏重于描绘

大海也有星空的图片,单标签分类只能将其分为海图或天图,多标签分类便可将

其同时识别为海图和天图,能更全面的反映该图片的实际特性;又如在文本中的

新闻内容,其既包括了教育又包含着经济,赋予它两个标签后,就可以在搜索两

个类别时都能检索出它。现实生活中的信息往往如上述样本一样,拥有多个标签

的分类问题即为本文所研究的多标签分类问题。

在现有所有的多标签学习任务模型框架中,每个待测样本都会与一个判定类

1

万方数据

相关主题