搜档网
当前位置:搜档网 › 数据挖掘与商务智能复习资料

数据挖掘与商务智能复习资料

1、联机分析处理(on line analytical processing ,OLAP)从数据仓库中的综合数据出发,提供面向分析的多维模型,并使用多维分析的方法从多个角度、多个层次对多维数据进行分析,使决策者能够以更加自然的方式来分析数据。

2、数据仓库是一种为信息分析提供了良好的基础并支持管理决策活动的分析环境,是面向主题的、集成的、稳定的、不可更新的、随时间变化的、分层次的多维的集成数据集合。

3、数据仓库的特点:(1)数据仓库是面向主题的(2)数据仓库的整合性(3)数据仓库数据的集成性(4)数据仓库的稳定性(5)数据仓库的长期性(6)数据仓库是随时间变化的(7)数据仓库的数据量很大(8)数据仓库软、硬件要求较高

4、数据库与数据仓库的关系:

5、数据集市(data marts)通常是指较为小型化、针对特定目标且建设成本较低的一种数据仓库。为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据(subject data)。

数据集市的两种架构:

(1)、从属数据集市:它的数据直接来自于中央数据仓库。一般为那些访问数据仓库十分频繁的关键业务部门建立从属的数据集市,这样可以很好地提高查询的反应速度。

(2)独立数据集市:它的数据直接来源于各生产系统。许多企业在计划实施数据仓库时,往往出于投资方面的考虑,最后建成独立数据集市,用来解决个别部门比较迫切的决策问题。

6、数据挖掘是在不同的数据源中包括结构化的数据、半结构化的数据和非结构化的数据,即既可以是数据库,也可以是文件系统,或其他任何组织在一起的数据集合,通过一定的工具与方法寻找出有价值的知识的一类深层次的数据分析方法。

7、数据挖掘与OLAP的差异:

(1)、OLAP是决策支持领域的一部分。OLAP分析师是建立一系列的假设,然后通过OLAP 来证实或推翻这些假设来最终得到自己的结论。

(2)、数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。他在本质上是一个归纳的过程。

(3)、数据挖掘和OLAP具有一定的互补性。

8、实施数据挖掘建模的六个阶段及四个层次

阶段:(1)、定义商业问题:针对企业问题和企业需求进行了解和确认,针对不同的需求做深入的了解,将其转化为数据挖掘的问题,并拟定逐步构想。

(2)、数据理解:建立数据库和分析数据库

(3)、数据预处理:同第二步为数据处理的核心

(4)、建立模型:分析已经筛选和净化的数据,采用各种定性和定量技术方法,对既有数据构建模式和模型,替企业解决问题。

(5)、评价和解释:对建立模型的结果进行解释,并对这一模型所带来的商业效果加以评价。(6)、实施:两种使用方法,第一,提供给分析人员作参考,由他通过察看和分析这个模型之后提出行动方案建议,第二,把此模型应用到不同的数据集上,并不断地检测效果。

层次:阶段、泛化任务、具体任务、操作实例

每个阶段由若干泛化任务组成,每个泛化实施若干具体任务,每个具体任务由若干过程实例来完成。上二层独立于具体数据挖掘方法。

9、商务智能是数据仓库、联机分析处理和数据挖掘等相关技术走向商业应用后形成的一种应用技术。该技术收集、汇总了与商务活动有关的各种数据,将其集成到数据仓库中。采用联机分析技术对商务活动进行实时的监控、分析,便于及时采取有效的商务决策,提升商务活动的绩效。应用数据挖掘技术对描述商务活动的数据进行挖掘,以获取有效的商务信息,从中提取商务知识,为企业商业发展寻找新的机遇。

10、星型模型与雪花模型的比较:

本质相同,都由事实表、维表构成

大多数的数据仓库都采用“星型模型”。星型模型是由“事实表”(大表)以及多个“维表”(小表)所组成。“事实表”中存放大量关于企业的事实数据(数量数据)。雪花模型对星型模型的维表进一步层次化,原来的各维表可能被扩展为小的事实表,形成一些局部的“层次”区域。雪花模型将维表按层次进行了规范化,可以节省空间,使结构清晰,但在查询时涉及

更多的连接操作。

星型模型的优点:星型模型存取数据速度快,主要是由于它针对各个维做了大量的预处理,如按照维进行预先的统计、分类、排序等;另外,星型模型比较直观,便于用户理解。

星型模型的缺点:当业务问题发生变化,原来的维不能满足要求时,需要增加新的维。由于事实表的主键由所有的维表的主键组成,这种维的变化带来数据变化将是非常复杂、非常耗时的。并且,星型模型的数据冗余量很大。

雪花模型的优点:在一定程度上减少了数据存储量,规范化的结构更容易更新和维护。

雪花模型的缺点:它比较复杂,用户不易理解;浏览内容相对困难;额外的连接降低了查询的性能。

在数据仓库中,通常不推荐使用雪花模型,因为数据仓库对查询性能的要求更高。

Apriori算法:使用候选项集找频繁项集

Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。

Apriori使用一种称作逐层搜索的迭代方法,k-项集用于探索(k+1)-项集。首先,找出频繁1-项集的集合。该集合记作L1。L1用于找频繁2-项集的集合L2,而L2用于找L3,如此下去,直到不能找到频繁k-项集。找每个Lk需要一次数据库扫描。

该算法利用了一个基本性质:一个频繁项目集的任一子集必定也是频繁项目集,一个非频繁项目集的任一超集必定也是非频繁项目集。

Apriori算法:使用候选项集找频繁项集

例一个Apriori的具体例子。该例基于图6.2的AllElectronics的事务数据库。数据库中有9个事务,即|D|=9。Apriori假定事务中的项按字典次序存放。我们使用图6.3解释Apriori 算法发现D中的频繁项集。

Apriori算法:使用候选项集找频繁项集

“如何将Apriori性质用于算法?”

为理解这一点,我们必须看看如何用Lk-1找Lk。

下面的两步过程由连接和剪枝组成。

1.连接步:为找Lk,通过Lk-1与自己连接产生候选k-项集的集合。该候选项集的集合记作Ck。

2.剪枝步:Ck是Lk的超集;即,它的成员可以是,也可以不是频繁的,但所有的频繁k-项集都包含在Ck中。

注意,Apriori算法使用逐层搜索技术,给定k-项集,我们只需要检查它们的(k-1)-子集是否频繁。

由频繁项集产生关联规则

一旦由数据库D中的事务找出频繁项集,由它们产生强关联规则是直接了当的(强关联规则满足最小支持度和最小置信度)。

对于置信度,可以用下式,其中条件概率用项集支持度计数表示。

其中,support_count(A∪B)是包含项集A∪B的事务数,support_count(A)是包含项集A的事务数。

根据该式,关联规则可以产生如下:

(1)对于每个频繁项集l,产生l的所有非空子集。

(2)对于l的每个非空子集s,如果,

则输出规则“s=> (l-s)”。其中,min_conf是最小置信度阈值。

由频繁项集产生关联规则

例它基于图6.2中AllElectronics事务数据库。假定数据包含集l={I1,I2,I5},可以由l产生哪些关联规则?

l的非空子集有{I1,I2},{I1,I5},{I2,I5},{I1},{I5}。

结果关联规则如下,每个都列出置信度。

如果最小置信度阈值为70%,则只有2、3和最后一个规则可以输出,因为只有这些是强的。例:

apriori_gen(Lk-1, supmin)算法

has_infrequent_subset(c, Lk-1)算法

对于气候分类问题进行具体计算有:

⒈信息熵的计算

信息熵:

类别出现概率:

|S|表示例子集S的总数,|ui|表示类别ui的例子数。

对9个正例和5个反例有:

P(u1)=9/14 P(u2)=5/14

H(U)=(9/14)log(14/9)+(5/14)log(14/5)=0.94bit

⒉条件熵计算

条件熵:

属性A1取值vj时,类别ui的条件概率:

A1=天气取值v1=晴,v2=多云,v3=雨

在A1处取值晴的例子5个,取值多云的例子4 个,取值雨的例子5 个,故:P(v1)=5/14 P(v2)=4/14 P(v3)=5/14

取值为晴的5 个例子中有2 个正例、3个反例,故:

P(u1/v1)=2/5,P(u2/v1)=3/5

同理有:P(u1/v2)=4/4,P(u2/v2)=0

P(u1/v3)=2/5,P(u2/v3)=3/5

H(U/V)=(5/14)((2/5)log(5/2)+(3/5)log(5/3))+(4/14)((4/4)log(4/4)

+0)+(5/14)((2/5)log(5/2)+(3/5)log(5/3)) = 0.694bit

⒊互信息计算

对A1=天气处有:

I(天气)=H(U)- H(U|V)= 0.94 - 0.694 = 0.246 bit

类似可得:

I(气温)=0.029 bit

I(湿度)=0.151 bit

I(风)=0.048 bit

⒋建决策树的树根和分枝

ID3算法将选择互信息最大的特征天气作为树根,在14个例子中对天气的3个取值进行分枝,3 个分枝对应3 个子集,分别是:

F1={1,2,8,9,11},F2={3,7,12,13},F3={4,5,6,10,14}

其中F2中的例子全属于P类,因此对应分枝标记为P,其余两个子集既含有正例又含有反例,将递归调用建树算法。

⒌递归建树

分别对F1和F3子集利用ID3算法,在每个子集中对各特征(仍为四个特征)求互信息.

(1)F1中的天气全取晴值,则H(U)=H(U|V),有I(U|V)=0,在余下三个特征中求出湿度互信息最大,以它为该分枝的根结点,再向下分枝。湿度取高的例子全为N 类,该分枝标记N。取值正常的例子全为P类,该分枝标记P。

(2)在F3中,对四个特征求互信息,得到风特征互信息最大,则以它为该分枝根结点。再向下分枝,风取有风时全为N类,该分枝标记N。取无风时全为P类,该分枝标记P。

这样就得到决策树

相关主题