搜档网
当前位置:搜档网 › Apriori算法实例——322万知乎用户的关注话题关联分析_光环大数据

Apriori算法实例——322万知乎用户的关注话题关联分析_光环大数据

Apriori算法实例——322万知乎用户的关注话题关联分析_光环大数据
Apriori算法实例——322万知乎用户的关注话题关联分析_光环大数据

https://www.sodocs.net/doc/a78560783.html,

Apriori算法实例——322万知乎用户的关注话题关联分析_光环大数据

用以前爬的知乎用户行为数据,跑了一下Apriori算法,发现了一些有意思的关联规则。以下是简略的分析过程。

数据采集

数据怎么来的?当然不是知乎给的,是爬虫来的。怎么爬的?这篇文章就不说了。

数据处理

之前爬虫的时候为了存储方便,把一个用户关联的话题以及每个话题下的回答情况存放一个长的字符串,这是一个坑。现在为了建模,得先把数据处理一下,用Python正则表达式从长字符串中把话题id抽取出来,然后使之变成一对多的规整的结构化数据框。这个过程使3220712行数据变成了36856177行。

关联分析

当然这里依然用R调包的方法来做关联分析。不过这个数据体量太大了,全量读的话单机内存会爆,更别说Apriori进行全表扫描、逐步迭代计算……所以选择一部分样本即可,这里取100w条数据作为样本来跑模型。

library(readr)library(arules)library(arulesViz)library(dplyr)topi c_info <- read_csv("E:/data/data/zhihu_topics.csv")Encoding(topic_info$topic)

<- "gbk"user_topic_sample <- read_csv("E:/data/data/zhihu_user_topic_sample.csv")user_topic_sample <- user_topic_sample %>% left_join(topic_info[,1:2])trans <- as(split(user_topic_sample$topic,user_topic_sample$user_token),"trans

https://www.sodocs.net/doc/a78560783.html,

actions")rules <- apriori(trans,parameter =

list(supp=0.1,conf=0.5,minlen=2))summary(rules)rules.sorted <-

sort(rules, by="lift")inspect(rules.sorted) %>% head(50)

lhs rhs support confidence lift count[1] {旅行,美食,心理学} => {时尚} 0.1015915 0.7318048

3.065149 3479[2] {健身,美食} => {时尚} 0.1031099 0.6927604 2.901612 3531[3] {电影,旅行,心理学} => {时尚}

0.1069937 0.6879459 2.881447 3664[4] {美食,心理学} => {家

居} 0.1003066 0.5069362 2.868005 3435[5] {电影,旅行,美食} => {时尚} 0.1104687 0.6830986 2.861144 3783[6] {电影,美食,心理学} => {时尚} 0.1116659 0.6745458 2.825320 3824[7] {健身,心理学} => {时尚} 0.1055921 0.6569767 2.751733 3616[8] {家居} => {时尚} 0.1146153 0.6484388 2.715972 3925[9] {旅行,心理学} => {时尚} 0.1209228 0.6474359 2.711771 4141[10] {健身,旅行} => {时尚} 0.1037232 0.6473483 2.711404 3552[11] {旅行,美食} => {时尚} 0.1232005 0.6455018 2.703671 4219[12] {电影,旅行,时尚} => {美食} 0.1104687 0.8419764 2.689440 3783[13] {旅行,时尚,心理学} => {美食} 0.1015915 0.8401352 2.683559 3479[14] {商业} => {创业} 0.1386772 0.6043523 2.653679 4749[15] {创业} => {商业} 0.1386772 0.6089242 2.653679 4749[16] {美食,心理学} => {时尚} 0.1250986 0.6322314 2.648088 4284[17] {美食,设计} => {时尚} 0.1017667 0.6320276 2.647234 3485[18] {电影,健身,美食} => {旅行} 0.1030223 0.8275862 2.635608 3528[19] {电影,家居} => {美食} 0.1067601 0.8175313 2.611357 3656[20] {电影,生活} => {音乐} 0.1106731 0.6273796 2.605143 3790[21] {设计,心理学} => {时尚} 0.1066433 0.6206662 2.599647 3652[22] {旅行,心理学} => {教育} 0.1022631 0.5475297 2.595536 3502[23] {电影,时尚,心理学} =>

https://www.sodocs.net/doc/a78560783.html,

{美食} 0.1116659 0.8118896 2.593336 3824[24] {美食,时尚,心理学} =>

{旅行} 0.1015915 0.8120915 2.586262 3479[25] {电影,美食,时尚} =>

{旅行} 0.1104687 0.8102377 2.580358 3783[26] {电影,旅行,心理学} =>

{美食} 0.1241349 0.7981600 2.549481 4251[27] {家居,心理学} =>

{美食} 0.1003066 0.7958758 2.542185 3435[28] {经济学} =>

{商业} 0.1366915 0.5831568 2.541385 4681[29] {商业} =>

{经济学} 0.1366915 0.5956987 2.541385 4681[30] {旅行,心理学} =>

{职业发展} 0.1016791 0.5444028 2.538890 3482[31] {旅行,时尚}

=> {美食} 0.1232005 0.7948380 2.538870 4219[32] {电影,健身,心理

学} => {美食} 0.1009490 0.7898104 2.522811 3457[33] {美食,

心理学} => {教育} 0.1051248 0.5312869 2.518538 3600[34]

{电影,商业} => {互联网} 0.1016207 0.6815511 2.518041 3480[35]

{创业,电影} => {互联网} 0.1006862 0.6791412 2.509137 3448[36] {电

影,健身,心理学} => {旅行} 0.1004818 0.7861549 2.503662 3441[37]

{电影,健身,旅行} => {美食} 0.1030223 0.7826087 2.499807 3528[38] {健康} => {生活} 0.1190539 0.6937213 2.498579 4077[39] {电影,设

计,心理学} => {美食} 0.1091254 0.7806559 2.493570 3737[40] {教育} => {职业发展} 0.1122500 0.5321152 2.481586 3844[41] {职业发展} => {教育} 0.1122500 0.5234918 2.481586 3844[42] {电影,

时尚,心理学} => {旅行} 0.1069937 0.7779193 2.477434 3664[43]

{健身,美食} => {旅行} 0.1156373 0.7769276 2.474276 3960[44]

{美食,心理学} => {职业发展} 0.1046576 0.5289256 2.466711 3584[45]

{电影,健身} => {时尚} 0.1102351 0.5883728 2.464387 3775[46]

{电影,互联网} => {商业} 0.1016207 0.5648434 2.461576 3480[47]

{设计,时尚} => {美食} 0.1017667 0.7699956 2.459519 3485[48]

{健身,时尚} => {旅行} 0.1037232 0.7721739 2.459137 3552[49]

{电影,互联网} => {创业} 0.1006862 0.5596494 2.457391 3448[50]

{美食,时尚} => {旅行} 0.1232005 0.7705936 2.454104 4219

https://www.sodocs.net/doc/a78560783.html,

提升度最高的关联规则是{旅行,美食,心理学} => {时尚} ,达到了3倍多!事实上这些top50的关联规则很多都是导向“时尚”这个话题,果然不愧为逼乎。

plot(rules, method="graph", control=list(type="items"))

image.png

图就不解释了,一直都不是很懂关联规则可视化图怎么解读……

附加一下各话题关注人数top100:

知乎关注人数top100的话题

关联分析的结果可用作推荐系统。与协同过滤算法相比,它不必计算两两相似度的邻接矩阵,计算量相对小一点;而且协同过滤算法只能计算相似度,关联规则有支持度、置信度、提升度等指标,解释性较强一点。不过在协同过滤算法中,因为有两两的相似度,因为只要有一个新的input,总能根据最高的相似度进行推荐;而在关联规则中,只有触发了对应的关联规则才能推荐,因此它的覆盖面不如协同过滤广。

步骤总结

首先把数据整理成id-item式的规整dataframe

然后把dataframe转换成transaction

设定关联规则参数(support、confident等)建立关联规则

以关联规则按某个指标(lift、support等)排序、解析

可视化关联规则

问题延伸

https://www.sodocs.net/doc/a78560783.html,

还好刚换了一个游戏本,不然无论Python处理数据,还是跑Apriori 模型,估计都会卡成狗

这只是一个case study

Apriori算法在数据量大的时候计算量也大得可怕,可以考虑FP-growth

用R在单机上调包建模的方法可以在学习时体会一下,但离工业级的建模仍有差距。这个case体量的数据建模的话,在Spark等分布式并行计算平台上跑算法才是正道

为什么大家选择光环大数据!

大数据培训、人工智能培训、Python培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训,就选光环大数据!光环大数据,聘请大数据领域具有多年经验的讲师,提高教学的整体质量与教学水准。讲师团及时掌握时代的技术,将时新的技能融入教学中,让学生所学知识顺应时代所需。通过深入浅出、通俗易懂的教学方式,指导学生较快的掌握技能知识,帮助莘莘学子实现就业梦想。

光环大数据启动了推进人工智能人才发展的“AI智客计划”。光环大数据专注国内大数据和人工智能培训,将在人工智能和大数据领域深度合作。未来三年,光环大数据将联合国内百所大学,通过“AI智客计划”,共同推动人工智能产业人才生态建设,培养和认证5-10万名AI大数据领域的人才。

参加“AI智客计划”,享2000元助学金!

https://www.sodocs.net/doc/a78560783.html,

【报名方式、详情咨询】

光环大数据网站报名:https://www.sodocs.net/doc/a78560783.html,

手机报名链接:http:// https://www.sodocs.net/doc/a78560783.html, /mobile/

关联规则挖掘基本概念和算法--张令杰10121084

研究生课程论文 关联规则挖掘基本概念和算法 课程名称:数据仓库与数据挖掘 学院:交通运输 专业:交通运输规划与管理 年级:硕1003班 姓名:张令杰 学号:10121084 指导教师:徐维祥

摘要 (Ⅰ) 一、引言 (1) 二、关联规则的基本描述 (1) 三、经典频繁项集挖掘的Apriori算法 (3) 四、提高Apriori算法的效率 (6) 五、由频繁项集产生关联规则 (8) 六、总结 (9) 参考文献 (9)

目前,数据挖掘已经成为一个研究热点。关联规则数据挖掘是数据挖掘的一个主要研究内容,关联规则是数据中存在的一类重要的可被发现的知识。其核心问题是如何提高挖掘算法的效率。本文介绍了经典的关联规则挖掘算法Apriori并分析了其优缺点。针对该算法的局限性,结合Apriori性质,本文对Apriori中连接的步骤进行了改进。通过该方法,可以有效地减少连接步产生的大量无用项集并减少判断项集子集是否是频繁项集的次数。 关键词:Apriori算法;关联规则;频繁项集;候选集

一、 引言 关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。如果两项或多项属性之间存在关联,那么其中一项的属性就可以依据其他属性值进行预测。它在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。 关联规则挖掘的一个典型例子是购物篮分析[1] 。关联规则研究有助于发现交易数据库中不同商品(项)之间的联系,找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响。分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。 最著名的关联规则发现方法是R. Agrawal 提出的Apriori 算法。关联规则挖掘问题可以分为两个子问题:第一步是找出事务数据库中所有大于等于用户指定的最小支持度的数据项集;第二步是利用频繁项集生成所需要的关联规则,根据用户设定的最小置信度进行取舍,最后得到强关联规则。识别或发现所有频繁项目集市关联规则发现算法的核心。 二、关联规则的基本描述 定义1. 项与项集 数据库中不可分割的最小单位信息,称为项目,用符号i 表示。项的集合称为项集。设集合{}k i i i I ,,,21 =是项集,I 中项目的个数为k ,则集合I 称为k -项集。例如,集合{啤 酒,尿布,牛奶}是一个3-项集。 定义2. 事务 设{}k i i i I ,,,21 =是由数据库中所有项目构成的集合,一次处理所含项目的集合用T 表示,{}n t t t T ,,,21 =。每一个i t 包含的的项集都是I 子集。 例如,如果顾客在商场里同一次购买多种商品,这些购物信息在数据库中有一个唯一的标识,用以表示这些商品是同一顾客同一次购买的。我们称该用户的本次购物活动对应一个数据库事务。 定义3. 项集的频数(支持度计数) 包括项集的事务数称为项集的频数(支持度计数)。 定义4. 关联规则 关联规则是形如Y X ?的蕴含式,其中X ,Y 分别是I 的真子集,并且φ=?Y X 。 X 称为规则的前提,Y 称为规则的结果。关联规则反映X 中的项目出现时,Y 中的项目也 跟着出现的规律

关联分析--SPSS例析

关联分析(笔记) 事物之间的关联关系包括:简单关联关系、序列关联关系。 关联关系简单关联关系 序列关联关系 简单关联规则:属于无指导学习方法,不直接用于分类预测,只揭示事物内部的结构。Spss modeler 提供了APriori、GRI、Carma等经典算法。APriori和Carma属于同类算法。 序列关联:关联具有前后顺序,通常与时间有关。 SPSS Modeler 提供了sequence算法; 数据格式如下:按照事务表存储,同事需要时间变量。

简单关联规则要分析的对象是事务 事务的储存方式有事务表和事实表两种方式。 事实表 两种表均表明,顾客1购买了AD两种物品,顾客2购买了BD两种物品,顾客三购买了AC两种物品。关联规则有效性的测度指标 1、支持度support:所有购买记录中,A、B同时被购买的比例。 2、置信度confidence:在购买A的事务中,购买B的比例。 关联规则实用性的测度指标 1、提升度lift:(在购买A的事务中,购买B的比例)/(所有事务中,购买B的比例)

2、置信差 3、置信率、正态卡方、信息差等等简单关联关系实例 例1 数据格式:事实表算法:Apriori

所有购买项目均选入前项antecedent和后项consequent。 输出结果的最低支持度是10%;本例设定的划分频繁项集的标准大于最小支持度10%。 最小置信度是80%; 前项最多项目数:5 本例中,三项以上没有超过10%的支持度,所以不能形成三项以上的频繁项集,最大的频繁项集大小是2。 结论解释: 实例:包含前项beer、cannedveg的样本有167个,在1000个样本中前项支持度为16.7%。 规则支持度:同时购买beer、cannedveg、frozenmeal三项的支持度为14.6%。 规则置信度:购买beer、cannedveg的客户中,87.425%的人有购买frozenmeal。 规则2下,购买frozenmeal的可能性比购买frozenmeal的支持度提高2.895倍。

关联规则算法Apriori的学习与实现

关联规则算法Apriori的学习与实现 (2011-07-18 11:28:52) 首先我们来看,什么是规则?规则形如”如果…那么…(If…Then…)”,前者为条件,后者为结果。关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系,根据所挖掘的关联关系,可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶?面包[支持度:3%,置信度:40%] 支持度3%意味3%顾客同时购买牛奶和面包。置信度40%意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴趣度度量,它们分别反映发现规则的有用性和确定性。关联规则是有趣的,如果它满足最小支持度阈值和最小置信度阈值。这些阈值可以由用户或领域专家设定。 我们先来认识几个相关的定义: 定义1:支持度(support) 支持度s是事务数据库D中包含A U B的事务百分比,它是概率P(A U B),即support (A B)=P(A U B),它描述了A和B这两个物品集的并集在所有的事务中出现的概率。定义2:置信度(confidence) 可信度为事务数据库D中包含A的事务中同时也包含B的百分比,它是概率P(B|A),即confidence(A B)=P(B|A)。 定义3:频繁项目集 支持度不小于用户给定的最小支持度阈值(minsup)的项集称为频繁项目集(简称频集),或者大项目集。所有 的频繁1-项集记为L1。 假设有如下表的购买记录。 顾客项目 1orange juice, coke 2milk, orange juice, window cleaner 3orange juice, detergent 4orange juice, detergent, coke 5window cleaner 将上表整理一下,得到如下的一个2维表 Orange Win Cl Milk Coke Detergent Orange41122 WinCl12100 Milk11100 Coke20021 Detergent10002 上表中横栏和纵栏的数字表示同时购买这两种商品的交易条数。如购买有Orange的交易数为4,而同时购买Orange和Coke的交易数为2。 置信度表示了这条规则有多大程度上值得可信。设条件的项的集合为A,结果的集合为B。置信度计算在A中,同时也含有B的概率。即Confidence(A==>B)=P(B|A)。例如计算"如果

关联规则算法探讨

关联规则算法探讨 发表时间:2010-01-08T10:11:56.840Z 来源:《企业技术开发》2009年第10期供稿作者:梁伟(中国地质大学信息工程学院,湖北武汉430074 [导读] 本文对关联规则的发展进行了简单的介绍,分析了关联规则的经典算法 作者简介:梁伟(1976-),男,广西崇左人,硕士研究生,主要研究方向:数据库技术数据挖掘。 摘要:本文对关联规则的发展进行了简单的介绍,分析了关联规则的经典算法,介绍进了一种新的关联规则算法,并对这三种算法在挖掘关联规则的特点进行了对比分析,最后对关联规则以后的发展进行了总结。 关键词:数据挖掘;关联规则;算法;探讨 1发展历史 随着信息技术的迅猛发展,许多领域搜集、积累了大量的数据,迫切需要一种新技术从海量的数据中自动、高效地提取所需的有用知识。对这些海量数据进行研究的过程中,数据挖掘技术受到越来越多的关注。我们可以使用数据挖掘技术从海量数据中发掘其中存在的潜在规律。并将这些规律进行总结,用于今后的决策。采用关联规则在大型事务数据库中进行数据挖掘是数据挖掘领域的一个重要研究内容。从大量数据中发现项之间有趣的、隐藏的关联和相关联系正是关联规则目的。 关联规则技术在不断成熟和发展,应用范围不断扩大,由最初的购物篮分析发展到计算机入侵检测、搜索引擎、警务预警、交通事故、保险业、金融业、农业专家系统、教学评估、股票分析等领域。在理论研究方面,由最简单的单维、单层、布尔关联规则逐渐向复杂形式扩展,由频繁模式挖掘不断扩展到闭合模式挖掘、扩展型关联规则、最大模式挖掘、衍生型关联规则、关联规则隐私保护、挖掘后处理、增量挖掘、规则主观兴趣度度量、相关模式、数据流等多种类型数据上的关联规则挖掘等。 2相关概念 设项的集合I = { i l ,i 2 ,…,i m },D为数据库事务集合,每个事务T是一个项目子集,似的T I。每个事务由事务标识符TID标识。若有X I, X T,则称T包含X;如果X有k个元素,称X为k-项集。 关联规则的逻辑蕴含式为:X Y[s,c] ,其中X I ,Y I 且 X Y= 。规则X Y在事务集D中成立,并且具有支s和置信度c。支持s是指事务集X Y含的百分比:support(X Y)=P(X Y),置信度c是指D中包含X的事务同时也包含Y的百分比confidence(X Y)=P(Y|X)。 对于一个事务集D,挖掘关联规则的问题就是找出支持度和可信度分别大于用户给定的最小支持度阀值(minsupp)和最小置信度(minconf)阀值的关联规则,这种规则成为强关联规则。 3经典算法 基于频繁集的方法是关联规则挖掘的主要方法,Aproiri算法是基于频繁集的算法最主要算法之一,在数据挖掘中具有里程碑的作用,但是Apriori算法本身存在着一些固有的无法克服的缺陷,而后出现的基于频繁集的另外一种算法FP-gorwth算法能较好地解决APriori算法存在的一些问题。下面分别介绍两种经典的算法。 3.1产生候选频繁项集 Apriori算法是Rabesh Agrawal等人在1994年提出的,该算法采用了一种宽度优先、逐层搜索的迭代方法:首先产生所有的频繁1-项集,然后在此基础上依次产生频繁2-项集、频繁3-项集……,直到频繁k-项集为空集。在此过程中,产生每个频繁项集都需要扫描一次数据库,通过对数据库D的多趟扫描来发现所有的频繁项目集。 设Ck表示候选k-项集,Lk表示Ck中出现频率大于或等于最小支持数的k-项集,即k-频繁集或者是k-大项集。该算法的基本过程如下。 ①首先计算所有的C1; ②扫描数据库,删除其中的非频繁子集,生成L1(1-频繁项集); ③将L1与自己连接生成C2(候选2-项集); ④扫描数据库,删除C2中的非频繁子集,生成L2(2-频繁项集); ⑤依此类推,通过Lk-1((k-1)-频繁项集)与自己连接生成Ck(候选k-项集),然后扫描数据库,生成Lk(频繁k-项集),直到不再有产生频繁项集为止。 Apriori算法虽然能较有效地产生关联规则,同时也存在着不少缺点: ①数据库太大时对候选项集的支持度计算非常繁琐,当支持度、置信度阀值设置太低会产生过多的规则,致使用户难易人为地对这些规则进行出区分和判断。 ②要对数据进行多次扫描,需要很大的I/O负载,算法的效率不高。 ③当数据库D很大时,会产生庞大的候选集,导致算法的耗时太大。 3.2不产生候选频繁项集 FP-Tree算法由 Jiawei Han提出。它的基本思路是将数据集中的重要信息压缩在一个称为频繁模式树(FP-Tree)的数据结构中,然后基于FP-Tree生成数据集中所有的频繁项集。该算法对所有频繁项集的挖掘分为以下两步:①构造频繁模式树FP-Tree。在 FP-Tree中,每个结点有4个域组成结点名称、结点计数、结点链及父结点指针。另外,为方便树遍历,创建一个频繁项头表,它由两个域组成:项目名称及结点链头,其中结点链头指向 FP-Tree中与之名称相同的第一个结点;②调用FP-Growth挖掘出所有频繁项集,具体算法描述如下。 ①生成频繁模式树,首先,扫描事务数据库 D一次,产生频繁1-项集,并把它们按降序排列,放入L表中。其次,创建 FP-Tree的根结点,以“null”标记。再一次扫描D,对于D中的每个事务按 L中的次序排序,并对每个事务创建一个分枝。 ②挖掘频繁项集,首先,从FP-tree的头表开始,按照每个频繁项集的链接遍历,列出能够到达此项的所有前缀路径,得到条件模式基。其次,用条件模式基构造对应的条件FP-tree。第三,递归挖掘条件FP-tree,直到结果FP-tree为空,或者只含有唯一的一个路径(此路径上的每个子路径对应的项集都是频繁项集)。 FP-Growth算法是一种基于模式增长的频繁模式挖掘算法,采用了“分而治之”策略,它能够在不产生候选频繁项集的情况下挖掘全部频繁项集,直接将数据库压缩成一个频繁模式树FP-tree,只需要两次扫描数据库,相对于Apriori算法效率快一个数量级。该算法虽然可以避

关联规则基本算法

关联规则基本算法及其应用 1.关联规则挖掘 1.1 关联规则提出背景 1993年,Agrawal 等人在首先提出关联规则概念,同时给出了相应的挖掘算法AIS ,但是性能较差。1994年,他们建立了项目集格空间理论,并依据上述两个定理,提出了著名的Apriori 算法,至今Apriori 仍然作为关联规则挖掘的经典算法被广泛讨论,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。关联规则挖掘在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。 关联规则最初提出的动机是针对购物篮分析(Market Basket Analysis)问题提出的。假设分店经理想更多的了解顾客的购物习惯(如下图)。特别是,想知道哪些商品顾客可能会在一次购物时同时购买?为回答该问题,可以对商店的顾客事物零售数量进行购物篮分析。该过程通过发现顾客放入“购物篮”中的不同商品之间的关联,分析顾客的购物习惯。这种关联的发现可以帮助零售商了解哪些商品频繁的被顾客同时购买,从而帮助他们开发更好的营销策略。 1.2 关联规则的基本概念 关联规则定义为:假设12{,,...}m I i i i =是项的集合,给定一个交易数据库 12D ={t ,t ,...,t }m , 其中每个事务(Transaction)t 是I 的非空子集,即t I ∈,每一个交易都与 一个唯一的标识符TID(Transaction ID)对应。关联规则是形如X Y ?的蕴涵式, 其中X ,Y I ∈且X Y φ?=, X 和Y 分别称为关联规则的先导(antecedent 或left-hand-side, LHS)和后继(consequent 或right-hand-side, RHS)。关联规则X Y ?在D 中的支持度(support)是D 中事务包含X Y ?的百分比,即概率()P X Y ?;置信度(confidence)是包含X 的事务中同时包含Y 的百分比,即条件概率(|)P Y X 。如果满足最小支持度阈值和最小置信度阈值,则称关联规则是有趣的。这些阈值由用户或者专家设定。

关联规则算法的应用

关联规则算法在超市物品摆放上的应用 15120832丁冀远 (理工大类) 摘要:使用关联规则算法在大量数据事例中挖掘项集之间的关联或相关联系,通过关联规则分析发现交易数据库中不同的商品(项)之间的联系,找到顾客购买行为模式,如购买某一个商品对其它商品的影响。进而通过挖掘结果应用于我们的超市货品摆放。 关键词:关联规则算法;数据分析;概率:重要性 引言 其实很多电子商务网站中在我们浏览相关产品的时候,它的旁边都会有相关产品推荐,当然这些它们可能仅仅是利用了分类的原理,将相同类型的的产品根据浏览量进而推荐,这也是关联规则应用的一种较简单的方式,而关联规则算法是基于大量的数据事实,通过数据层面的挖掘来告诉你某些产品项存在关联,有可能这种关联关系有可能是自身的,比如:牙刷和牙膏、筷子和碗...有些本身就没有关联是通过外界因素所形成的关系,经典的就是:啤酒和尿布,前一种关系通过常识我们有时候可以获取,但后一种关系通过经验就不易获得,而我们的关联规则算法解决的就是这部分问题。 正文 建立关于客户购买物品的数据表格。 订单号(外键)、购买数量、购买产品 然后开始运用关联规则算法。此种算法有两个参数比较重要:

Support:定义规则被视为有效前必须存在的事例百分比。也就是说作为关联规则筛选的事例可能性,比如设置成10%,也就是说在只要在所有事例中所占比为10%的时候才能进行挖掘。 Probability:定义关联被视为有效前必须存在的可能性。该参数是作为结果筛选的一个预定参数,比如设置成10%,也就是说在预测结果中概率产生为10%以上的结果值才被展示。 下面结果的表格中,第一列概率的值就是产品之前会产生关联的概率,按照概率从大到小排序,第二列为可能性,该度量规则的有用性。该值越大则意味着规则越有用,设置该规则的目的是避免只使用概率可能发生误导,如果仅仅根据概率去推测,这件物品的概率将是1,但是这个规则是不准确的,因为它没有和其它商品发生任何关联,也就是说该值是无意义的,所以才出现了“重要性”列。 经过排序可以看到,上图中的该条规则项为关联规则最强的一种组合:前面的为:山地自行车(Mountain-200)、山地自行车内胎(Mountain Tire Tube)然后关联关系最强的为:自行车轮胎(HL Mountain Tire) 同时可发现自行车(Road-750)、水壶(Water Bottle)->自行车水壶框(Road Bottle Cage)也有强关联,进入“依赖关系网络”面板,分析各种产品之间的关联关系的强弱。 上图中就标示了这玩意相关的商品,看到Mountain Bottle Cage、Road Bottle Cage这两个都是双向关联,然后Road-750、Cycling Cap、Hydration Pack... 结果,通过关联规则分析算法可以得出山地自行车(Mountain-200)、山地自行车内胎(Mountain Tire Tube),自行车轮胎(HL Mountain Tire)摆放在一起能得到更大的经济效益,Mountain Bottle Cage、Road Bottle、CageRoad-750、Cycling Cap、Hydration Pack 同样不错。

Apriori算法实例——322万知乎用户的关注话题关联分析_光环大数据

https://www.sodocs.net/doc/a78560783.html, Apriori算法实例——322万知乎用户的关注话题关联分析_光环大数据 用以前爬的知乎用户行为数据,跑了一下Apriori算法,发现了一些有意思的关联规则。以下是简略的分析过程。 数据采集 数据怎么来的?当然不是知乎给的,是爬虫来的。怎么爬的?这篇文章就不说了。 数据处理 之前爬虫的时候为了存储方便,把一个用户关联的话题以及每个话题下的回答情况存放一个长的字符串,这是一个坑。现在为了建模,得先把数据处理一下,用Python正则表达式从长字符串中把话题id抽取出来,然后使之变成一对多的规整的结构化数据框。这个过程使3220712行数据变成了36856177行。 关联分析 当然这里依然用R调包的方法来做关联分析。不过这个数据体量太大了,全量读的话单机内存会爆,更别说Apriori进行全表扫描、逐步迭代计算……所以选择一部分样本即可,这里取100w条数据作为样本来跑模型。 library(readr)library(arules)library(arulesViz)library(dplyr)topi c_info <- read_csv("E:/data/data/zhihu_topics.csv")Encoding(topic_info$topic) <- "gbk"user_topic_sample <- read_csv("E:/data/data/zhihu_user_topic_sample.csv")user_topic_sample <- user_topic_sample %>% left_join(topic_info[,1:2])trans <- as(split(user_topic_sample$topic,user_topic_sample$user_token),"trans

数据挖掘算法之关联规则

数据挖掘算法之-关联规则挖掘(Association Rule) (2009-09-20 21:59:23) 转载 标签: 分类:DM dm 在数据挖掘的知识模式中,关联规则模式是比较重要的一种。关联规则的概念由Agrawal、Imielinski、Swami 提出,是数据中一种简单但很实用的规则。关联规则模式属于描述型模式,发现关联规则的算法属于无监督学习的方法。 一、关联规则的定义和属性 考察一些涉及许多物品的事务:事务1 中出现了物品甲,事务2 中出现了物品乙,事务3 中则同时出现了物品甲和乙。那么,物品甲和乙在事务中的出现相互之间是否有规律可循呢?在数据库的知识发现中,关联规则就是描述这种在一个事务中物品之间同时出现的规律的知识模式。更确切的说,关联规则通过量化的数字描述物品甲的出现对物品乙的出现有多大的影响。 现实中,这样的例子很多。例如超级市场利用前端收款机收集存储了大量的售货数据,这些数据是一条条的购买事务记录,每条记录存储了事务处理时间,顾客购买的物品、物品的数量及金额等。这些数据中常常隐含形式如下的关联规则:在购买铁锤的顾客当中,有70 %的人同时购买了铁钉。这些关联规则很有价值,商场管理人员可以根据这些关联规则更好地规划商场,如把铁锤和铁钉这样的商品摆放在一起,能够促进销售。 有些数据不像售货数据那样很容易就能看出一个事务是许多物品的集合,但稍微转换一下思考角度,仍然可以像售货数据一样处理。比如人寿保险,一份保单就是一个事务。保险公司在接受保险前,往往需要记录投保人详尽的信息,有时还要到医院做身体检查。保单上记录有投保人的年龄、性别、健康状况、工作单位、工作地址、工资水平等。这些投保人的个人信息就可以看作事务中的物品。通过分析这些数据,可以得到类似以下这样的关联规则:年龄在40 岁以上,工作在A 区的投保人当中,有45 %的人曾经向保险公司索赔过。在这条规则中,

基于关联规则的决策树算法

基于关联规则的决策树算法 汪海锐1,2,李 伟2 (1. 河海大学计算机与信息学院,江苏 常州 213022;2. 海军蚌埠士官学校,安徽 蚌埠 233012) 摘 要:通过将关联规则与决策树算法相结合,形成一种基于关联规则的决策树算法。该算法对不同时期同一事务的异种数据结构进行处理,得到一种可扩展的多分支分类决策树,使得改进后的决策树算法具有良好的可扩展性。该算法解决了传统分类算法在数据集维度发生变化时分类过程无法持续进行的问题。 关键词关键词::决策树;关联规则;分类算法;扩展性;组合算法 Decision Tree Algorithm Based on Association Rules W ANG Hai-rui 1,2, LI Wei 2 (1. Institute of Computer & Information, Hohai University, Changzhou 213022, China; 2. Navy Petty Officer Academy, Bengbu 233012, China) 【Abstract 】This paper combines association rules and decision tree algorithm, and proposes a new decision tree classification based on association rule. The decision tree algorithm can handle dissimilar transaction data set record blocks which are same investigations conducted in different times to the same transactions. Through the decision tree algorithm, it can get a multi-crunodes decision tree, which has a good extendable performance. The algorithm solves the problem, which exists in the traditional classification, that is the traditional classification can not classify effectively and sustaine when dimensions of dataset change. 【Key words 】decision tree; association rule; classification algorithm; extendable performance; combining algorithm DOI: 10.3969/j.issn.1000-3428.2011.09.035 计 算 机 工 程 Computer Engineering 第37卷 第9期 V ol.37 No.9 2011年5月 May 2011 ·软件技术与数据库软件技术与数据库·· 文章编号文章编号::1000—3428(2011)09—0104—03 文献标识码文献标识码::A 中图分类号中图分类号::TP311.12 1 概述 在数据挖掘的诸多分支中,分类具有极大的实际意义, 渐渐成为数据挖掘在生活中应用的一个重要课题,也使得各种分类算法成为当前的研究热点。在分类算法中,决策树算法[1-2]是一个极为经典的分类算法,有不少学者对其进行研究改进。对于现行的决策树算法,虽然不少学者从多个方面提出了改进,部分算法解决了其缺值处理、并行处理等局限性,但它们同时都具有一个不可回避的缺点:无法适应因采样数据时期不同而导致的属性值不一致问题。同时,传统的决策树算法对于很庞大的数据集而言是很不合适的,由此一些研究人员采用了不同的方法来处理这个问题,如并行的处理方法、多决策树合并算法来提高决策树算法的效率,为此,文献[3]对数据集进行划分,将大数据集划分成小的数据集,再 在小数据集上应用决策树算法,生成小的决策树,再将各个 小的决策树联合起来形成整个决策树。该方法虽然解决了大数据集的分类问题,但降低了分类的准确度。 本文结合关联规则与决策树算法形成一种新的分类算法,既具有决策树的优点,又具有关联规则可并行处理的性质。该算法主要着眼于现实世界的事务数据集是不断变化的,在数据的采集过程中可能会出现某段时间只采集某一事务数据的某些属性值样本,而后期的采集又增加了一些属性,从而形成了对同一事务不同时期的数据采集,构成异种数据集。在这些数据集中可能还会出现新增的类别,也可能会出现某些类别的消亡。在此情况下,按照传统的决策树算法,一旦某一时段的数据集采集完成就进行处理,则如果该时段之后的新增数据集增加了采样属性,那么旧的数据集就有可能会失效或无法使用。如果在新数据集采集完成之前已经对旧数据集进行处理,则造成前期所有的处理工作都无用。为此, 本文考虑利用不同时期的数据集,建立新的决策树算法,使决策树具备良好的伸缩性及可调整性。 2 基于关联规则的决策树算法 2.1 算法流程及简介 本文通过决策树算法与关联规则的结合形成基于关联规则的决策树算法,并对传统决策树算法与关联规则进行结合,形成新的分类算法,该算法同时具有决策树分类准确、易于理解等特点。本算法主要流程如图1所示。

基于Apriori算法的关联规则挖掘实例

第五章基于Apriori算法的关联规则挖掘实例 在电子病历的操作过程中产生了大量数据,对数据进行挖掘,利用知识之间的关联性,可以对不同疾病人群进行挖掘分析,发现这种隐含关系,对于临床研究而言,具有重大的指导意义。 从电子病历系统中随机抽取多位病人信息,主要检查其是否患有心力衰竭、糖尿病、尿毒症,肾功能衰竭等4种疾病,利用关联规则Apriori算法可以检测以上四种疾病是否存在关联。 首先对病历数据进行收集整理:(见表1) 表1 病人患病情况整合表 病人记录号疾病名称 1 心力衰竭、其他疾病 2 心力衰竭 3 心力衰竭、尿毒症 4 心力衰竭、肾功能衰竭、糖尿病、尿毒症

5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 心力衰竭、尿毒症、肾功能衰竭、糖尿病 糖尿病 糖尿病、心力衰竭、其他疾病 糖尿病、尿毒症 糖尿病 糖尿病、肾功能衰竭、尿毒症 糖尿病 糖尿病、尿毒症、肾功能衰竭、心力衰竭糖尿病、尿毒症、肾功能衰竭、心力衰竭 肾功能衰竭 肾功能衰竭、其他疾病 肾功能衰竭、糖尿病 肾功能衰竭、尿毒症 肾功能衰竭 尿毒症、糖尿病、肾功能衰竭 尿毒症、肾功能衰竭、 尿毒症 尿毒症、肾功能衰竭、糖尿病、心力衰竭糖尿病、尿毒症、肾功能衰竭、心力衰竭糖尿病、尿毒症、肾功能衰竭、心力衰竭糖尿病、尿毒症、肾功能衰竭、心力衰竭 我们假设最小支持度为40%,利用Apriori算法进行数据挖掘,首先检测事务数据并生成候选项集H1。(见表2) 表2 候选项集H1 项集支持度 心力衰竭48% 糖尿病64% 尿毒症56% 肾功能衰竭64% 其他疾病12% 根据H1并结合我们要求的最小支持度40%,进而出现频繁项集的集合P1。(见表3) 表3 频繁项集P1

数据挖掘考试题目——关联分析知识讲解

数据挖掘考试题目——关联分析 一、10个选择 1.以下属于关联分析的是() A.CPU性能预测B.购物篮分析 C.自动判断鸢尾花类别D.股票趋势建模 2.维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘() A.K-means B.Bayes Network C.C4.5 D.Apriori 3.置信度(confidence)是衡量兴趣度度量()的指标。 A.简洁性B.确定性 C.实用性D.新颖性 4.Apriori算法的加速过程依赖于以下哪个策略() A.抽样B.剪枝 C.缓冲D.并行 5.以下哪个会降低Apriori算法的挖掘效率() A.支持度阈值增大B.项数减少 C.事务数减少D.减小硬盘读写速率 6.Apriori算法使用到以下哪些东东() A.格结构、有向无环图B.二叉树、哈希树 C.格结构、哈希树D.多叉树、有向无环图 7.非频繁模式() A.其置信度小于阈值B.令人不感兴趣 C.包含负模式和负相关模式D.对异常数据项敏感 8.对频繁项集、频繁闭项集、极大频繁项集的关系描述正确的是()[注:分别以1、2、3代表之] A.3可以还原出无损的1 B.2可以还原出无损的1 C.3与2是完全等价的D.2与1是完全等价的 9.Hash tree在Apriori算法中所起的作用是() A.存储数据B.查找 C.加速查找D.剪枝 10.以下不属于数据挖掘软件的是() A.SPSS Modeler B.Weka C.Apache Spark D.Knime 二、10个填空 1.关联分析中表示关联关系的方法主要有:和。 2.关联规则的评价度量主要有:和。 3.关联规则挖掘的算法主要有:和。 4.购物篮分析中,数据是以的形式呈现。 5.一个项集满足最小支持度,我们称之为。 6.一个关联规则同时满足最小支持度和最小置信度,我们称之为。

关联规则挖掘算法综述

关联规则挖掘算法综述
本文介绍了关联规则的基本概念和分类方法, 列举了一些关联规则挖掘算法并简 要分析了典型算法,展望了关联规则挖掘的未来研究方向。
1 引言
关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。 它在数据挖掘中 是一个重要的课题,最近几年已被业界所广泛研究。 关联规则挖掘的一个典型例子是购物篮分析。 关联规则研究有助于发现交易数据 库中不同商品(项)之间的联系,找出顾客购买行为模式,如购买了某一商品对 购买其他商品的影响。分析结果可以应用于商品货架布局、货存安排以及根据购 买模式对用户进行分类。 Agrawal 等于 1993 年首先提出了挖掘顾客交易数据库中项集间的关联规则问题 [AIS93b],以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们 的工作包括对原有的算法进行优化,如引入随机采样、并行的思想等,以提高算 法挖掘规则的效率;对关联规则的应用进行推广。 最近也有独立于 Agrawal 的频集方法的工作[HPY00],以避免频集方法的一些缺 陷,探索挖掘关联规则的新方法。也有一些工作[KPR98]注重于对挖掘到的模式 的价值进行评估,他们提出的模型建议了一些值得考虑的研究方向。
2 基本概念
设 I={i1,i2,..,im}是项集,其中 ik(k=1,2,…,m)可以是购物篮中的物品,也可 以是保险公司的顾客。设任务相关的数据 D 是事务集,其中每个事务 T 是项集, 使得 TÍI。设 A 是一个项集,且 AÍT。 关联规则是如下形式的逻辑蕴涵:A Þ B,AÌI, AÌI,且 A∩B=F。关联规则具有如下两个重要的属性: 支持度: P(A∪B),即 A 和 B 这两个项集在事务集 D 中同时出现的概率。 置信度: P(B|A),即在出现项集 A 的事务集 D 中,项集 B 也同时出现的概率。 同时满足最小支持度阈值和最小置信度阈值的规则称为强规则。 给定一个事务集 D,挖掘关联规则问题就是产生支持度和可信度分别大于用户给定的最小支持度 和最小可信度的关联规则,也就是产生强规则的问题。
3 关联规则种类

相关主题