搜档网
当前位置:搜档网 › 主成分与因子分析区别

主成分与因子分析区别

主成分与因子分析区别
主成分与因子分析区别

主成分分析与因子分析方法的比较

The Comparison of Principal Component Analysis Method and Factor

Analysis Method

内容摘要:主成分分析和因子分析都是简化数据结构的重要方法,二者既有区别也有联系。二者都可以运用SPSS软件求解分析,同时,主成分分析还可以应用matlab软件编程求解。文章首先从概念上介绍这两种方法,说明两种方法的原理;同时,通过这两种方法对安徽省15个县的经济发展的指标数据进行实证分析和比较,在两种模型的建立与求解过程中,不同方法得到的排名结果不同。再结合两种方法的原理及应用的区别,就四个方面具体比较两种方法。分析比较之后,得出明显的结论:两种方法的排名结果差别比较大,这对于建立完善的评估体系是无益的,对于经济社会的发展起不到应有的作用。因此,熟悉两种方法的区别,并判别不同问题的使用方法,才能在实际应用时选择更实用更合理的方法,对经济现象进行更有效的分析和评价。

关键词:主成分分析;因子分析;SPSS;matlab;经济发展

目录

主成分分析与因子分析方法的比较 (1)

1. 引言 (1)

1.1 选题背景 (1)

1.2 国内研究成果 (1)

1.3 本文研究思路 (2)

2. 主成分分析与因子分析原理 (2)

2.1 主成分分析原理 (2)

2.2 因子分析原理 (3)

3. 实证分析 (4)

3.1 数据准备 (4)

3.2 主成分分析 (4)

3.3 因子分析 (6)

4. 结论 (8)

4.1 结果分析 (8)

4.2 主成分与因子分析的区别 (9)

5.结束语 (10)

参考文献 .............................................. 错误!未定义书签。附录 1 ............................................... 错误!未定义书签。附录 2 ............................................... 错误!未定义书签。附录 3 ............................................... 错误!未定义书签。附录 4 ............................................... 错误!未定义书签。

1. 引言

在分析省内几个地区的发展状况时,为了尽可能全面反映评价对象的整体情况,需要选取恰当的、客观的评价指标。由于数据的复杂性,综合评价通常涉及到多指标,这不仅会增加评价的工作量而且会因评价指标间的相关性造成评价信息相互干扰,从而难以客观地反映评价对象的真实属性。

1.1 选题背景

在实际工作中,需要精简指标,将原来的指标重新组合成一组相互无关的综合指标以此来尽可能多地反映原来指标信息量,主成分分析与因子分析为解决此类问题提供了很好的方法。

主成分分析和因子分析都是简化数据结构的重要方法,二者既有区别也有联系。主成分分析方法是一种将多维因子纳入同一系统进行定性、定量化研究,理论比较完善的多元统计分析方法。研究如何通过少数几个主成分来解释多变量的方差、协方差结构的分析方法,也就是求出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此不相关。因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。这两种方法是处理多变量、大样本时经常采用的方法,其二者的最终目的都是降维。

但这两种综合评价方法往往易混淆,因此比较两种分析方法的异同点对于解决问题有重要作用。

1.2国内研究成果

主成分分析方法和因子分析方法都是寻求从高维空间到低维空间的映射的方法,国内文献中就其区别研究,主要分为以下几种:统计依据、数学模型、计算方法、综合指标的选取等方面比较它们的异同①,以理论的分析具体理解两种分析方法。

另外,国内文献中,也从主成分分析法、因子分析法的基本思想、使用方法及统①钱道翠:《综合评价主成分分析方法与因子分析方法的比较》,浙江:浙江统计,2004年,第32页。

计量的分析等多角度进行比较,并辅以实例分析研究②。

1.3 本文研究思路

本文给出选出的安徽省内15个县的经济指标数据,由于指标过多,并可能存在共线性问题,考虑利用主成分分析方法和因子分析方法进行比较综合评价。

以实际数据建立模型求解分析,运用matlab 软件实现主城分析建模求解,运用spss 软件分析因子分析的结果,在建模求解、结果分析的过程中比较两种评价方法的特点。

2. 主成分分析与因子分析原理 2.1 主成分分析原理

主成分分析法①是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。

设P X X ,,,X 21 为实际问题的p 个n 维随机变量(p 项指标)记),,,(X X 21P X X =,其协方差矩阵为

]))())(([()(T p ij X E X X E X E --==∑σ

它是一个p 阶的非负定矩阵。设变量P X X ,,,X 21 经过线性变换后得到新的综合变量P Y Y ,,,Y 21 ,即

??

????

?+++=+++=+++=p

pp p p p p

p p

p x l x l x l Y x l x l x l Y x l x l x l Y 22112222121212121111 其中系数),,2,1(),,,(21p i l l l l ip i i i ==为常数向量。且系数需要满足以下三个条件:

(1)系数向量是单位向量,即 p i l l l ip i i ,,2,1,12

2

22

1 ==++ (2)不同的主成分不相关,即 ),,2,1,,(,0),cov(p j i j i Y Y j i =≠=

② 王 芳:《主成分分析与因子分析的异同比较及应用》,南京:统计教育,2003年,第14页。

①王 芳:《主成分分析与因子分析的异同比较及应用》,南京:统计教育,2003年,第14页。

(3)各主成分的方差递减,即 0)var()var()var(21≥≥≥≥p Y Y Y

称1Y 为第一主成分,2Y 为第二主成分,依此类推,P Y 称为第p 个主成分。主成分又叫主分量。这里ij l 我们称为主成分的系数。

2.2 因子分析原理

因子分析①是研究从变量群中提取共性因子的统计技术,可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。

例如:有n 个地理样本,每个样本共有p 个指标变量,构成一个p n ?阶的地理数据矩阵。当p 较大时,在p 维空间中考察问题比较麻烦。这就需要进行降维处理,即用较少几个综合指标代替原来指标,而且使这些综合指标既能尽量多地反映原来指标所反映的信息,同时它们之间又是彼此独立的。记P 21x ,…,x ,x 为原变量指标,

)(z ,…,z ,z m 21p m ≤为新变量指标(主成分),则其线性组合为:

??

?

??

?

?+++=+++=+++=p mp m m m p p p

p x l x l x l z x l x l x l z x l x l x l z 22112222121212121111

ij l 是原变量在各主成分上的载荷。

因子分析过程一般经过以下步骤(可以由SPSS18.0软件直接得出结果): ①原始数据的标准化,标准化的公式为j j ij ij x x x σ/)(-=,其中ij x 为第i 个样本的第j 个原指标值,而j x 和j σ分别为j 指标的均值和标准差。标准化的目的在于消除不同变量的量纲的影响,而且标准化转化不会改变变量的相关系数;

②计算标准化数据的相关系数阵,求出相关系数矩阵的特征值和特征向量; ③进行正交变换,使用方差最大法。其目的是使因子载荷两极分化,而且旋转后的因子仍然正交;

④确定因子个数,计算因子得分,进行统计分析。

①唐功爽:基于SPSS 的主成分分析与因子分析的辨析[J].统计教育,2007年第2 期,第12页。

3. 实证分析

3.1 数据准备

通过实例来研究SPSS软件中的因子分析和MATLAB软件中的主成分及二者分析结果的比较。运用两种分析方法对安徽省几个县的经济发展状况进行分析并对二者分析结果进行比较。本文在选取指标时遵循了指标选取的基本原则,即针对性、可操作性、层次性、全面性等原则,选取了以下反映各个县经济发展综合水平的7项指标:人均生产总值、人均财政收入、职工平均工资、人均工业增加值、人均农林牧渔业、农民人均纯收入、人均社会消费品。

所有数据均来源于《安徽统计年鉴2011》。运用因子分析时SPSS19.0 将自动对原始数据进行标准差标准化处理,消除指标量纲及数量级的影响;运用主成分分析时,在MATLAB软件编程过程中注意消除量纲的影响。具体数据见下表1。

表1 安徽省15个县的主要经济指标

3.2 主成分分析

3.2.1 主成分分析用于综合评价的步骤①

(1) 若各指标的属性不同(成本型、利润型、适度型),则将原始数据矩阵A统一

①李柏年,吴礼斌:MA TLAB数据分析方法[M].北京:机械工业出版社,2012。

趋势化,得到属性一致的指标矩阵Y;

(2) 计算的协方差矩阵或相关系数矩阵R;

(3) 计算R的特征值与相应的特征向量;

(4) 根据特征值计算累计贡献率,确定主成分的个数,而特征向量就是主成分的系数向量;

(5) 计算主成分的数值(即主成分得分)。若利用协方差矩阵计算特征值与特征向量,则主成分得分为

=)

-

(

V

F?

EB

B

若利用相关系数矩阵R计算特征值与特征向量,则主成分得分为:

F?

=*

B

V

其中,V是特征向量矩阵,*

B是将矩阵标准化以后的矩阵(即zscore(B));

(6) 计算综合评价值,进行排序.若为效益型矩阵,则评价值越大排名越靠前;若为成本型矩阵,则评价值越小排名越靠前。通常计算综合评价值的公式为:W

=

F

Z*

其中F是主成分得分矩阵,W是将特征值归一化后得到的权向量。

其中,利用第一主成分得分排序要满足两个条件:一个是最大特征值对应的特征向量是正向量;另一个是贡献率>50% 。

3.2.2 主成分分析模型的建立与求解

(1) 模型中选取的各指标的属性相同,都是效益型数据,因此无需变换;

(2) 运用matlab软件求出相关系数矩阵,见附录一,显然没有相关系数为1的指标,说明指标的选取都是有意义的;

(3) 运用matlab软件编程求出特征值与相应的特征向量,并求出贡献率,程序见附录二。结果如下表2。

(4) 由上表可见,第一主成分所对应的最大特征值对应的特征向量是正向量并且

其贡献率为61.6%,大于50%,因此可直接利用第一主成分得分排序。并且,对于第一主成分,各个指标对应的权重大小可用其对应的特征向量来观察,如人均社会消费品所占的权重最小,与评价经济发展状况是相符合的。排序结果如下表3。

3.3 因子分析

3.3.1 因子分析的步骤

因子分析有两个核心问题:一是如何构造因子变量;二是如何对因子变量进行命名解释。因子分析有下面4个基本步骤①:

(1) 确定待分析的原有若干变量是否适合于因子分析。因子分析是从众多的原始变量中构造出少数几个具有代表意义的因子变量,这里面有一个潜在的要求,即原有变量之间要具有比较强的相关性。如果原有变量之间不存在较强的相关关系,那么就无法从中综合出能反映某些变量共同特性的少数公共因子变量来。因此,在因子分析时,需要对原有变量作相关分析。如果相关系数矩阵在进行统计检验中,大部分相关系数都小于0.3,并且未通过统计检验,那么这些变量就不适合于进行因子分析;

(2) 构造因子变量。因子分析中有多种确定因子变量的方法,如基于主成分模型的主成分分析法和基于因子分析模型的主轴因子法、极大似然法、最小二乘法等。其中基于主成分模型的主成分分析法是使用最多的因子分析方法之一;

(3) 利用旋转使得因子变量更具有可解释性。在实际分析工作中,主要是通过对载荷矩阵的值进行分析,得到因子变量和原变量的关系,从而对新的因子变量进行命名;

①魏艳华.王丙参,田玉柱:主成分分析与因子分析的比较研究,天水师范学院学报,2009。

(4) 计算因子变量的得分。计算因子得分是因子分析的最后一步,因子变量确定以后,对每一样本数据,希望得到它们在不同因子上的具体数据值,这些数值就是因子得分,它和原变量的得分相对应。

3.3.2 因子分析模型的建立与求解

(1) 相关系数矩阵可见附录1,其大部分变量间的相关系数都较大,初步判断适合用因子分析;SPSS输出结果文件中检验值如下表4。

表4 KMO 与Bartlett 球体检

KMO 和 Bartlett 的检验

取样足够度的Kaiser-Meyer-Olkin 度量。.596

Bartlett 的球形度检验近似卡方116.721

df 21

Sig. .000

Bartlett球度检验是以原有变量的相关系数矩阵为出发点,假设相关系数为单位矩阵,如果该检验对应的P值小于给定的显著性水平a,则应拒绝原假设,认为原有变量适合进行因子分析;KMO检验的统计量取值在0-1之间,越接近于1说明变量间的相关性越强,原有变量适合做因子分析。

KMO统计量是0.596,且Bartlett 球体检验值为116.721,卡方统计值的显著性水平为0.000 小于0.01,都说明各指标之间具有较高相关性,因此本文数据适用于作因子分析。

(2) 总方差分解,如下表5中,依据贡献率大于85%的原则,提取了3个公因子,它们的累积方差贡献率达91.105%,这 3 个公因子包含了原指标的绝大部分信息,可以代替原来7个变量对城市经济发展水平现状进行衡量。

表5 解释的总方差

(3) 利用SPSS 软件计算出3个因子的得分,详见附录4。并得出所有地区的排名结果如下表6。1F 、2F 、3F 是用SPSS 软件做出的三个因子,其因子得分如表 6中所示。计算三个公共因子上的得分与其权重的乘积并求和,以此作为综合评价的依据进行排序。F 即为计算出的综合得分,并可以其大小进行排序。

3212212.02535.04363.0F F F F ?+?+?=

表6 因子得分及地区排名情况

4. 结论 4.1 结果分析

结合表3与表6可以看出, 主成分分析与因子分析的实证结果,大部分地区的排名存在差异,其定量值差异较大,这对于综合定量定性分析, 最终得出的评估结果都有很大影响。

在上述实证分析的主成分分析模型中,选取第一主成分作为计算得分,而若以累计贡献率达到85%以上的标准来计算得分,其结果会发生一些变化,运用matlab 软

件编程,程序见附录3。排名结果见表7。

可见相比较表3,表7 中的排名发生一些变化,但与因子分析的结果,即表6的结果仍然有较大的区别。故对于评估的模型选择,应该结合实际分析与预测,否则,结果会偏差较大,影响评价。

在这个实证分析的案例中,观察表3和表6的结果,再结合实际情况,安徽省内合肥市的经济发展居于领先地位,即合肥市的几个县的经济发展状况应该排名靠前,所以在本案例中,因子分析的结果更加合理。

4.2 主成分与因子分析的区别

结合上述两种方法的实证分析过程,主成分分析与因子分析两种方法的区别可以总结为以下几个方面①②:

(1) 主成分分析不能作为一个模型来描述,其只是通常的变量变换;而因子分析需要构造因子模型。

(2) 主成分分析中主成分的个数与变量个数相同,它是将一组具有相关性的变量作为一组独立变量;因子分析要用尽可能少的公因子构造简单的因子模型。

(3) 主成分分析是将主成分表示为可观测的原始变量的线性组合;因子分析是将原始变量表示为公共因子和特殊因子的线性组合,是根据相关性大小把原始变量分组,每组变量代表一个一个基本结构、用一个不可测的综合变量表示,这个基本结构称为公共因子,它将多个变量综合成少数个因子,以再现原始变量与因子间的关系。

(4) 本文的实证分析中,对于因子分析,运用SPSS软件计算;对于主成分分析,运用matlab软件进行计算分析,另外,对于主成分分析,也可以运用SPSS软件进行

①朱建平:应用多元统计分析[M].北京:科学出版社,2006。

②李柏年,吴礼斌:MA TLAB数据分析方法[M].北京:机械工业出版社,2012。

分析。

5.结束语

使用主成分分析和因子分析进行综合评价时,可以通过不同的统计软件来完成数据分析,如主成分分析可以利用SPSS软件,也可以利用matlab软件。本文很详细地从理论和实证角度,分析了这两种方法的异同及如何运用不同的软件进行分析。从实证结果看,运用主成分分析和因子分析进行安徽省15个县的经济发展状况的评价时,两种方法得到的排名结果存在差异,而且对于运用matlab软件计算的排名,采用第一主成分排名和要求贡献率达到85%的主成分排名时结果也不同。

因此,应正确理解和运用这两种方法,使其发挥出各自最大的优势,以便更好地服务于社会,作为不同的评估方法作为不同的应用领域、解决不同的问题

1

浅谈主成分分析与因子分析基本思想主要性质应用举例计算步骤主要区别

浅谈主成分分析与因子分析 1、主成分分析 主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标,同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来指标的信息。这种将多个指标化为少数互相无关的综合指标的统计方法叫做主成分分析,也是数学上处理降维的一种方法。主成分分析的一般目的是:(1)变量的降维;(2)主成分的解释。 1.1基本思想 主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。这些主成分不仅不相关,而且他们的方差依次递减。 1.2计算步骤 设有n个样品,每个样品观测P个指标,将原始数据写成矩阵。 (1)将原始数据标准化,即将每个指标的原始数据减去这个指标的均值后,再除以这个指标的标准差。 (2)建立变量的相关系数阵:。 (3)求R的特征根及相应的单位特征向量。 在解决实际问题时,一般不是取p个主成分,而是根据累计贡献率的大小取前k个,称第一主成分的贡献率为,这个值越大,表明第一主成分综合

主成分分析与因子分析的联系与区别

https://www.sodocs.net/doc/3517179967.html,/ysuncn/archive/2007/12/08/1924502.aspx 一、问题的提出 在科学研究或日常生活中,常常需要判断某一事物在同类事物中的好坏、优劣程度及其发展规律等问题。而影响事物的特征及其发展规律的因素(指标)是多方面的,因此,在对该事物进行研究时,为了能更全面、准确地反映出它的特征及其发展规律,就不应仅从单个指标或单方面去评价它,而应考虑到与其有关的多方面的因素,即研究中需要引入更多的与该事物有关系的变量,来对其进行综合分析和评价。多变量大样本资料无疑能给研究人员或决策者提供很多有价值的信息,但在分析处理多变量问题时,由于众变量之间往往存在一定的相关性,使得观测数据所反映的信息存在重叠现象。因此为了尽量避免信息重叠和减轻工作量,人们就往往希望能找出少数几个互不相关的综合变量来尽可能地反映原来数据所含有的绝大部分信息。而主成分分析和因子分析正是为解决此类问题而产生的多元统计分析方法。 近年来,这两种方法在社会经济问题研究中的应用越来越多,其应用范围也愈加广泛。因子分析是主成分分析的推广和发展,二者之间就势必有着许多共同之处,而SPSS软件不能直接进行主成分分析,致使一些应用者在使用SPSS进行这两种方法的分析时,常常会出现一些混淆性的错误,这难免会使人们对分析结果产生质疑。因此,有必要在运用SPSS分析时,将这两种方法加以严格区分,并针对实际问题选择正确的方法。 二、主成分分析与因子分析的联系与区别 两种方法的出发点都是变量的相关系数矩阵,在损失较少信息的前提下,把多个变量(这些变量之间要求存在较强的相关性,以保证能从原始变量中提取主成分)综合成少数几个综合变量来研究总体各方面信息的多元统计方法,且这少数几个综合变量所代表的信息不能重叠,即变量间不相关。 主要区别: 1. 主成分分析是通过变量变换把注意力集中在具有较大变差的那些主成分上,而舍弃那些变差小的主成分;因子分析是因子模型把注意力集中在少数不可观测的潜在变量(即公共因子)上,而舍弃特殊因子。 2. 主成分分析是将主成分表示为原观测变量的线性组合, (1) 主成分的个数i=原变量的个数p,其中j=1,2,…,p,是相关矩阵的特征值所对应的特征向量矩阵中的元素,是原始变量的标准化数据,均值为0,方差为1。其实质是p维空间的坐标变换,不改变原始数据的结构。 而因子分析则是对原观测变量分解成公共因子和特殊因子两部分。因子模型如式(2),

主成分分析和因子分析-回归分析和相关分析的区别

主成分分析和因子分析的区别 通过主成分分析所得来的新变量是原始变量的线性组合,每个主成分都是由原有P个变量线组合得到,在诸多主成分z中,Z1在总方差中占的比重最大,说明它综合原有变量的能力最强,其余主成分在总方差中占的比重依次递减,说明越往后的主成分综合原信息的能力越弱。以后的分析可以用前面几个方差最大的主成分来进行,一般情况下,要求前几个z 所包含的信息不少于原始信息的85%,这样既减少了变量的数目,又能够用较少的主成分反映原有变量的绝大部分信息。如利用主成分来消除多元回归方程的多重共线性,利用主成分来筛选多元线性回归方程中的变量等。 通过因子分析得来的新变量是对每一个原始变量进行内部剖析。打比喻来说,原始变量就如成千上万的糕点,每一种糕点的原料都有面粉、油、糖及相应的不同原料,这其中,面粉、油、糖是所有糕点的共同材料,这正好象是因子分析中的新变量即因子变量。正确选择因子变量后,如果想考虑成千上万糕点的物价变动,只需重点考虑面粉、油、糖等公共因子的物价变动即可。所以因子分析不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分。即因子分析就是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它把原始变量分解为两部分因素,一部分是由所有变量共同具有的少数几个公共因子构成的,另一部分是每个原始变量独自具有的因素,即特殊因子。 1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成各个变量的线性组合。在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1,x2,. . . ,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到。在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱。 2、主成分分析的重点在于解释各变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。 3、主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子和特殊因子之间也不相关。 4、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不到的因子。 5、在因子分析中,因子个数需要分析者指定(spss根据一定的条件自动设定,只要是特征值大于1的因子进入分析),而指定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。 和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这中情况也可以使用因子得分做到。所以这种区分不是绝对的。

(完整版)主成分分析与因子分析的优缺点

主成分分析就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差-协方差结构.综合指标即为主成分.所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关.因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法. 聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述的过程.其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似. 三种分析方法既有区别也有联系,本文力图将三者的异同进行比较,并举例说明三者在实际应用中的联系,以期为更好地利用这些高级统计方法为研究所用有所裨益. 二、基本思想的异同 (一) 共同点 主成分分析法和因子分析法都是用少数的几个变量(因子) 来综合反映原始变量(因子) 的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85 %以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题.并且新的变量彼此间互不相关,消除了多重共线性.这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量.在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1 ,x2 ,. . . ,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到.在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱.因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分.公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量独自具有的因子.对新产生的主成分变量及因子变量计算其得分,就可以将主成分得分或因子得分代替原始变量进行进一步的分析,因为主成分变量及因子变量比原始变量少了许多,所以起到了降维的作用,为我们处理数据降低了难度. 聚类分析的基本思想是: 采用多变量的统计值,定量地确定相互之间的亲疏关系,考虑对象多因素的联系和主导作用,按它们亲疏差异程度,归入不同的分类中一元,使分类更具客观实际并能反映事物的

主成分分析和因子分析的区别

更多精彩统计学相关文章,请访问“统计之都”Capital of Statistics——https://www.sodocs.net/doc/3517179967.html,
主成分分析和因子分析的区别
一、二者在 SPSS 中的实现
(一) 、因子分析在 进行因子分析主要步骤如下: 1. 2. 3. 4. 5. 指标数据标准化(SPSS 软件自动执行) ; 指标之间的相关性判定; 确定因子个数; 综合得分表达式; 各因子 Fi 命名; 例子:对沿海 10 个省市经济综合指标进行因子分析 (一)指标选取原则 本文所选取的数据来自 《中国统计年鉴 2003》 2002 年的统计数据,在沿海 10 省市经济状况主要指标 中 体系中选取了 10 个指标: X1——GDP X3——农业增加值 X5——第三产业增加值 X7——基本建设投资 X9——海关出口总额 X2——人均 GDP X4——工业增加值 X6——固定资产投资 X8——国内生产总值占全国比重(%) X10——地方财政收入
SPSS 中的实现
图表 1 沿海 10 个省市经济数据 社会消 农业增加 工业增加 第三产业 固定资产 基本建设 费品零 值 值 增加值 投资 投资 售总额 14883.3 1390 950.2 83.9 1122.6 86.2 680 663 1023.9 591.4 1376.2 3502.5 1406.7 822.8 3536.3 2196.2 2356.5 1047.1 4224.6 367 2258.4 3851 2092.6 960 3967.2 2755.8 3065 1859 4793.6 995.7 1315.9 2288.7 1161.6 703.7 2320 1970.2 2296.6 964.5 3022.9 542.2 529 1070.7 597.1 361.9 1141.3 779.3 1180.6 397.9 1275.5 352.7 2258.4 3181.9 1968.3 941.4 3215.8 2035.2 2877.5 1663.3 5013.6 1025.5
地区
GDP
人均 GDP 13000 11643 9047 22068 14397 40627 16570 13510 15030 5062
海关出 地方财 口总额 政收入 123.7 211.1 45.9 115.7 384.7 320.5 294.2 173.7 1843.7 15.1 399.7 610.2 302.3 171.8 643.7 709 566.9 272.9 1202 186.7
辽宁 5458.2 山东 10550 河北 6076.6 天津 2022.6 江苏 浙江 福建 广东 10636 7670 4682 11770 上海 5408.8
广西 2437.2
(二)因子分析在 SPSS 中的具体操作步骤
1

主成分、因子分析步骤

主成分分析、因子分析步骤 不同点主成分分析因子分析 概念具有相关关系的p个变量,经过线性组合后成为k个不相关的新 变量将原数据中多个可能相关的变量综合成少数几个不相关的可反映原始变量的绝大多数信息的综合变量 主要目标减少变量个数,以较少的主成分 来解释原有变量间的大部分变 异,适合于数据简化 找寻变量间的部相关性及潜在的共同因素,适 合做数据结构检测 强调重点强调的是解释数据变异的能力, 以方差为导向,使方差达到最大 强调的是变量之间的相关性,以协方差为导向, 关心每个变量与其他变量共同享有部分的大小 最终结 果应用 形成一个或数个总指标变量反映变量间潜在或观察不到的因素 变异解释程度它将所有的变量的变异都考虑 在,因而没有误差项 只考虑每一题与其他题目共同享有的变异,因 而有误差项,叫独特因素 是否需要旋转主成分分析作综合指标用, 不需要旋转 因子分析需要经过旋转才能对因子作命名与解 释 是否有假设只是对数据作变换,故不需要假 设 因子分析对资料要求需符合许多假设,如果假 设条件不符,则因子分析的结果将受到质疑 因子分析 1 【分析】→【降维】→【因子分析】 (1)描述性统计量(Descriptives)对话框设置 KMO和Bartlett的球形度检验(检验多变量正态性和原始变量是否适合作因子分析)。

(2)因子抽取(Extraction)对话框设置 方法:默认主成分法。主成分分析一定要选主成分法 分析:主成分分析:相关性矩阵。 输出:为旋转的因子图 抽取:默认选1. 最大收敛性迭代次数:默认25. (3)因子旋转(Rotation)对话框设置 因子旋转的方法,常选择“最大方差法”。“输出”框中的“旋转解”。

主成分分析和因子分析十大不同点

主成分分析和因子分析十大不同点 主成分分析和因子分析无论从算法上还是应用上都有着比较相似之处,本文结合以往资料以及自己的理解总结了以下十大不同之处,适合初学者学习之用。 1.原理不同 主成分分析基本原理:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个不相关的综合指标(主成分),即每个主成分都是原始变量的线性组合,而且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的。 因子分析基本原理:利用降维(线性变换)的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量表示成少数的公共因子和仅对某一个变量有作用的特殊因子线性组合而成。就是要从数据中提取对变量起解释作用的少数公共因子(因子分析是主成分的推广,相对于主成分分析,更倾向于描述原始变量之间的相关关系)。 2.线性表示方向不同 因子分析是把变量表示成各公因子的线性组合;而主成分分析中则是把主成分表示成各变量的线性组合。 3.假设条件不同 主成分分析:不需要有假设(assumptions)。 因子分析:需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子和特殊因子之间也不相关。4.求解方法不同 求解主成分的方法:从协方差阵出发(协方差阵已知),从相关阵出发(相关阵R已知),采用的方法只有主成分法。(实际研究中,总体协方差阵与相关阵是未知的,必须通过样本数据来估计)。 注意事项:由协方差阵出发与由相关阵出发求解主成分所得结果不一致时,要恰当的选取某一种方法;一般当变量单位相同或者变量在同一数量等级的情况下,可以直接采用协方差阵进行计算;对于度量单位不同的指标或是取值范围彼此差异非常大的指标,应考虑将数据标准化,再由协方差阵求主成分;实际应用中应该尽可能的避免标准化,因为在标准化的过程中会抹杀一部分原本刻画变量之间离散程度差异的信息。此外,最理想的情况是主成分分析前的变量之间相关性高,且变量之间不存在多重共线性问题(会出现最小特征根接近0的情况)。 求解因子载荷的方法:主成分法,主轴因子法,极大似然法,最小二乘法,a因子提取法。

最新SPSS 因子分析和主成分分析

S P S S因子分析和主成分分析

实验课:因子分析 实验目的 理解主成分(因子)分析的基本原理,熟悉并掌握SPSS中的主成分(因子)分析方法及其主要应用。 因子分析 一、基础理论知识 1 概念 因子分析(Factor analysis):就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。从数学角度来看,主成分分析是一种化繁为简的降维处理技术。 主成分分析(Principal component analysis):是因子分析的一个特例,是使用最多的因子提取方法。它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。 两者关系:主成分分析(PCA)和因子分析(FA)是两种把变量维数降低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子分析的一个特例。

2 特点 (1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。 (2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。 (3)因子变量之间不存在显著的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显著的相关关系。 (4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。 在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理(即通过因子分析或主成分分析)。显然,在一个低维空间解释系统要比在高维系统容易的多。 3 类型 根据研究对象的不同,把因子分析分为R型和Q型两种。 当研究对象是变量时,属于R型因子分析; 当研究对象是样品时,属于Q型因子分析。 但有的因子分析方法兼有R型和Q型因子分析的一些特点,如因子分析中的对应分析方法,有的学者称之为双重型因子分析,以示与其他两类的区别。

主成分分析法与因子分析法的区别

主成分分析和因子分析有十大区别: 1.原理不同 主成分分析基本原理:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个不相关的综合指标(主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的。 因子分析基本原理:利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量表示成少数的公共因子和仅对某一个变量有作用的特殊因子线性组合而成。就是要从数据中提取对变量起解释作用的少数公共因子(因子分析是主成分的推广,相对于主成分分析,更倾向于描述原始变量之间的相关关系) 2.线性表示方向不同 因子分析是把变量表示成各公因子的线性组合;而主成分分析中则是把主成分表示成各变量的线性组合。 3.假设条件不同 主成分分析:不需要有假设(assumptions), 因子分析:需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specificfactor)之间也不相关,共同因子和特殊因子之间也不相关。 4.求解方法不同 求解主成分的方法:从协方差阵出发(协方差阵已知),从相关阵出发(相关阵R已知),采用的方法只有主成分法。 (实际研究中,总体协方差阵与相关阵是未知的,必须通过样本数据来估计) 注意事项:由协方差阵出发与由相关阵出发求解主成分所得结果不一致时,要恰当的选取某一种方法;一般当变量单位相同或者变量在同一数量等级的情况下,可以直接采用协方差阵进行计算;对于度量单位不同的指标或是取值范围彼此差异非常大的指标,应考虑将数据标准化,再由协方差阵求主成分;实际应用中应该尽可能的避免标准化,因为在标准化的过程中会抹杀一部分原本刻画变量之间离散程度差异的信息。此外,最理想的情况是主成分分析前的变量之间相关性高,且变量之间不存在多重共线性问题(会出现最小特征根接近0的情况); 求解因子载荷的方法:主成分法,主轴因子法,极大似然法,最小二乘法,a因子提取法。 5.主成分和因子的变化不同 主成分分析:当给定的协方差矩阵或者相关矩阵的特征值唯一时,主成分一般是固定的独特的; 因子分析:因子不是固定的,可以旋转得到不同的因子。 6.因子数量与主成分的数量 主成分分析:主成分的数量是一定的,一般有几个变量就有几个主成分(只是主成分所解释的信息量不等),实际应用时会根据碎石图提取前几个主要的主成分。 因子分析:因子个数需要分析者指定(SPSS和sas根据一定的条件自动设定,只要是特征值大于1的因子主可进入分析),指定的因子数量不同而结果也不同; 7.解释重点不同: 主成分分析:重点在于解释个变量的总方差, 因子分析:则把重点放在解释各变量之间的协方差。 8.算法上的不同: 主成分分析:协方差矩阵的对角元素是变量的方差; 因子分析:所采用的协方差矩阵的对角元素不在是变量的方差,而是和变量对应的共同度(变

主成分分析与因子分析的主要方法和思想

1.(10分)数据中心化和标准化在回归分析中的意义是什么? 在多元线性回归分析中,因为涉及多个自变量,自变量的单位往往不同,会给分析带来一定的困难,又由于涉及的数据量很大,就可能会以舍入误差而使得计算结果不理想. 1.中心化处理后可以减少一个未知参数,减少了计算的工作量,对手工计算尤为重要. 2.标准化处理后有利于消除量纲不同和数量级的差异所带来的影响,避免不必要的误差. 2.(10分)在实际问题中运用多元线性回归应注意哪些问题? 在实际问题中,人们用复相关系数R来表示回归方程对原有数据拟合程度的好坏,但是拟合优度并不是检验模型优劣的唯一标准,有时为了使模型从结构上有较合理的经济解释,R2等于0.7左右也给回归模型以肯定的态度. 在多元线性回归分析中,我们并不看重简单相关系数,而认为偏相关系数才是真正反映因变量y与自变量x i以及自变量x i与x j的相关性的数量. 用相关系数R2大小来衡量模型的拟合优度,不能仅由R2值很大来推断模型优劣. 在实际应用回归方程进行控制和预测时,给定的x0值不能偏离样本均值太大,如果太大,用回归方程无论是作因素分析还是经济预测,效果都不会理想. 得到实际问题的经验回归方程后,还不能马上用它去作分析和预测,还需运用统计方法对回归方程进行检验. 3.(15分)主成分分析与因子分析的主要方法和思想是什么?两者有何联系与区别? 求解主成分的方法:从协方差阵出发(协方差阵已知),从相关阵出发(相关阵R已知),采用的方法只有主成分法。 一、主成分分析的基本思想 在对某一事物进行实证研究中,为了更全面、准确地反映出事物的特征及其发展规律,人们往往要考虑与其有关系的多个指标,这些指标在多元统计中也称为变量。这样就产

R语言主成分和因子分析

R语言主成分和因子分析 主成分分析(PCA)是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关变量称为主成分。 探索性因子分析(EFA)是一系列用来发现一组变量的潜在结构的方法,通过寻找一组更小的、潜在的或隐藏的结构来解释已观测到的、变量间的关系。 1.R中的主成分和因子分析 R的基础安装包中提供了PCA和EFA的函数,分别为princomp ()和factanal() psych包中有用的因子分析函数 (1)数据预处理;PCA和EFA都是根据观测变量间的相关性来推导结果。用户可以输入原始数据矩阵或相关系数矩阵列到principal()和fa()函数中,若输出初始结果,相关系数矩阵将会被自动计算,在计算前请确保数据中没有缺失值; (2)选择因子分析模型。判断是PCA(数据降维)还是EFA(发现潜在结构)更符合你的分析目标。若选择EFA方法时,还需要选择一种估计因子模型的方法(如最大似然估计)。 (3)判断要选择的主成分/因子数目; (4)选择主成分/因子; (5)旋转主成分/因子;

(6)解释结果; (7)计算主成分或因子得分。 2.主成分分析 PCA的目标是用一组较少的不相关变量代替大量相关变量,同时尽可能保留初始变量的信息,这些推导所得的变量称为主成分,它们是观测变量的线性组合。如第一主成分为: PC1=a1X1=a2X2+……+akXk 它是k个观测变量的加权组合,对初始变量集的方差解释性最大。 第二主成分是初始变量的线性组合,对方差的解释性排第二,同时与第一主成分正交(不相关)。后面每一个主成分都最大化它对方差的解释程度,同时与之前所有的主成分都正交,但从实用的角度来看,都希望能用较少的主成分来近似全变量集。 (1)判断主成分的个数 PCA中需要多少个主成分的准则: 根据先验经验和理论知识判断主成分数; 根据要解释变量方差的积累值的阈值来判断需要的主成分数; 通过检查变量间k*k的相关系数矩阵来判断保留的主成分数。 最常见的是基于特征值的方法,每个主成分都与相关系数矩阵的特征值关联,第一主成分与最大的特征值相关联,第二主成分与第二大的特征值相关联,依此类推。 Kaiser-Harris准则建议保留特征值大于1的主成分,特征值小于1的成分所解释的方差比包含在单个变量中的方差更少。 Cattell碎石检验则绘制了特征值与主成分数的图形,这类图形可以展示图形弯曲状况,在图形变化最大处之上的主成分都保留。 最后,还可以进行模拟,依据与初始矩阵相同大小的随机数矩阵来判断要提取的特征值。若基于真实数据的某个特征值大于一组随机数据矩阵相应的平均特征值,那么该主成分可以保留。该方法称作平行分析。

主成分分析与因子分析

一、问题的提出 在科学研究或日常生活中,常常需要判断某一事物在同类事物中的好坏、优劣程度及其发展规律等问题。而影响事物的特征及其发展规律的因素(指标)是多方面的,因此,在对该事物进行研究时,为了能更全面、准确地反映出它的特征及其发展规律,就不应仅从单个指标或单方面去评价它,而应考虑到与其有关的多方面的因素,即研究中需要引入更多的与该事物有关系的变量,来对其进行综合分析和评价。多变量大样本资料无疑能给研究人员或决策者提供很多有价值的信息,但在分析处理多变量问题时,由于众变量之间往往存在一定的相关性,使得观测数据所反映的信息存在重叠现象。因此为了尽量避 免信息重叠和减轻工作量,人们就往往希望能找出少数几个互不相关的综合变量来尽可能地反映原来数据所含有的绝大部分信息。而主成分分析和因子分析正是为解决此类问题而产生的多元统计分析方法。 近年来,这两种方法在社会经济问题研究中的应用越来越多,其应用范围也愈加广泛。因子分析是主成分分析的推广和发展,二者之间就势必有着许多共同之处,而 SPSS 软件不能直接进行主成分分析,致使一些应用者在使用SPSS 进行这两种方法的分析时,常常会出现一些混淆性的错误,这难免会使人们对分析结果产生质疑。因此,有必要在运用SPSS 分析时,将这两种方法加以严格区分,并针对实际问题选择正确的方法。 二、主成分分析与因子分析的联系与区别 两种方法的出发点都是变量的相关系数矩阵,在损失较少信息的前提下,把多个变量(这些变量之间要求存在较强的相关性,以保证能从原始变量中提取主成分)综合成少数几个综合变量来研究总体各方面信息的多元统计方法,且这少数几个综合变量所代表的信息不能重叠,即变量间不相关。 主要区别: 1. 主成分分析是通过变量变换把注意力集中在具有较大变差的那些主成分上,而舍弃那些变差小的主成分;因子分析是因子模型把注意力集中在少数不可观测的潜在变量(即公共因子)上,而舍弃特殊因子。 2. 主成分分析是将主成分表示为原观测变量的线性组合, 1o i ij j j Y X γ==∑ (1) 主成分的个数i=原变量的个数p ,其中j=1,2,…,p , 是相关矩阵的特征值所对应的特征向量矩阵中的元素, 是原始变量的标准化数据,均值为0,方差为1。其实质是p 维空间的坐标变换,不改变原始数据的结构。 而因子分析则是对原观测变量分解成公共因子和特殊因子两部分。因子模型如式(2), (2) 其中i=1,2,…,p, m 是因子分析过程中的初始因子载荷矩阵中的元素, 是第j 个公共因子,是第i 个原观测变量的特殊因子。且此处的与的均值都为0,方差都为1。 3. 主成分的各系数,是唯一确定的、正交的。不可以对系数矩阵进行任何的旋转,且系数大小并不代表原变量与主成分的相关程度;而因子模型的系数矩阵是不唯一的、可以进行旋转的,且该矩阵表明了原变量和公共因子的相关程度。 4. 主成分分析,可以通过可观测的原变量X 直接求得主成分Y ,并具有可逆性;因子分析

因子分析和主成分分析

因子分析和主成分分析 实验目的 学习利用SPSS进行因子分析和主成分分析。 二、实验性质 选修,基础层次 三、主要仪器及试材 计算机及SPSS软件 四、实验内容 因子分析 五、实验学时 2学时 六、实验方法与步骤 1. 开机; 2. 找到SPSS的快捷按纽或在程序中找到SPSS,打开SPSS; 3. 按要求建立数据文件; 4. 进行统计分析; 5. 撰写实验报告; 6. 关闭SPSS,关机。 七、实验注意事项 1. 实验中不轻易改动SPSS的参数设置,以免引起系统运行问题。 2. 遇到各种难以处理的问题,请询问指导教师。 3. 为保证计算机的安全,上机过程中非经指导教师和实验室管理人员同意,禁止使用移动 存储器。 4. 每次上机,个人应按规定要求使用同一计算机,如因故障需更换,应报指导教师或实验 室管理人员同意。 5. 上机时间,禁止使用计算机从事与课程无关的工作。 八、上机作业 例1:下表资料为25名健康人的7项生化检验结果,7项生化检验指标依次命名为X1至X7,请对该资料进行因子分析。

实验步骤: 1.建立数据文件。定义变量名:分别为X1、X2、X3、X4、X5、X6、X7,按顺序输入相应数值,建立数据文件,保存为“生化检验”。 2.选择菜单“分析→降维→因子分析”,弹出“因子分析”对话框。在对话框左侧的变量列表中选变量X1至X7,进入“变量”框,如图1。 3.单击“描述”按钮,弹出“因子分析:描述统计”对话框,在“统计量”中选“单变量描述性”项,输出各变量的均数与标准差,“在相关矩阵”栏内选“系数”,计算相关系数矩阵,并选“KMO 和Bartlett的球型度检验”项,对相关系数矩阵进行统计学检验,如图2。

主成分分析与因子分析的比较研究与实例分析

主成分分析与因子分析的比较研究与实例分析 摘 要: 比较研究了主成分分析和因子分析理论及其联系与区别,实例分析了两种方法在实际应用中的差异性,得出结论:应用中应正确选择多元统计分析方法,并且联系实际问题和专业具体分析。 关键词: 主成分分析;因子分析;实例 Comparative research and case analysis of principal component analysis and factor analysis Abstract: the theory of principal component analysis and factor analysis as well as their relations and distinctions are compared and studied, the differences of two methods in practical application have been analyzed, concluded that the method should be choosed rightly and contacted with the actual problem and professional to do specific analysis. Key words: principal component analysis;factor analysis;actual example 0 引言 研究实际问题时常涉及多个指标变量,且彼此间存在一定的相关性,使得数据存在着一定的信息重叠。 单独研究单个变量会损失大量信息,选取几个综合变量又能充分反映原来变量的信息,且彼此之间不相关对实际研究带来了便利。主成分分析与因子分析是将多个指标化为少数几个综合指标实现降维的统计方法。近年来这两种方法应用范围越来越多广泛,既存在着去多共同之处,也有其各自的差异性[1]。 1 主成分分析与因子分析法理论 1.1 主成分分析法 设研究对象有P 个指标变量,分别为X1,X2,...,Xp 表示,从而有均值为μ,协方差矩阵为Σ的p 维随机向量X=(X1,X2,...,Xp )。通过主成分分析对X 进行线性变换得到新的变量Y 。即: () 11121p 21222p 1212x x ...x x x ...x ,,...x x ...x P n n np X X X X ??????==???????? M M M 线性变换后:

(仅供参考)SPSS中的主成分分析与因子分析

主成分分析与因子分析及SPSS实现(一):原理与方法 一、主成分分析 (1)问题提出 在问题研究中,为了不遗漏和准确起见,往往会面面俱到,取得大量的指标来进行分析。比如为了研究某种疾病的影响因素,我们可能会收集患者的人口学资料、病史、体征、化验检查等等数十项指标。如果将这些指标直接纳入多元统计分析,不仅会使模型变得复杂不稳定,而且还有可能因为变量之间的多重共线性引起较大的误差。有没有一种办法能对信息进行浓缩,减少变量的个数,同时消除多重共线性? 这时,主成分分析隆重登场。 (2)主成分分析的原理 主成分分析的本质是坐标的旋转变换,将原始的n个变量进行重新的线性组合,生成n个新的变量,他们之间互不相关,称为n个“成分”。同时按照方差最大化的原则,保证第一个成分的方差最大,然后依次递减。这n个成分是按照方差从大到小排列的,其中前m个成分可能就包含了原始变量的大部分方差(及变异信息)。那么这m个成分就成为原始变量的“主成分”,他们包含了原始变量的大部分信息。 注意得到的主成分不是原始变量筛选后的剩余变量,而是原始变量经过重新组合后的“综合变量”。 我们以最简单的二维数据来直观的解释主成分分析的原理。假设现在有两个变量X1、X2,在坐标上画出散点图如下:

可见,他们之间存在相关关系,如果我们将坐标轴整体逆时针旋转45°,变成新的坐标系Y1、Y2,如下图: 根据坐标变化的原理,我们可以算出:

Y1 = sqrt(2)/2 * X1 + sqrt(2)/2 * X2 Y2 = sqrt(2)/2 * X1 - sqrt(2)/2 * X2 其中sqrt(x)为x的平方根。 通过对X1、X2的重新进行线性组合,得到了两个新的变量Y1、Y2。 此时,Y1、Y2变得不再相关,而且Y1方向变异(方差)较大,Y2方向的变异(方差)较小,这时我们可以提取Y1作为X1、X2的主成分,参与后续的统计分析,因为它携带了原始变量的大部分信息。 至此我们解决了两个问题:降维和消除共线性。 对于二维以上的数据,就不能用上面的几何图形直观的表示了,只能通过矩阵变换求解,但是本质思想是一样的。 二、因子分析 (一)原理和方法: 因子分析是主成分分析的扩展。 在主成分分析过程中,新变量是原始变量的线性组合,即将多个原始变量经过线性(坐标)变换得到新的变量。 因子分析中,是对原始变量间的内在相关结构进行分组,相关性强的分在一组,组间相关性较弱,这样各组变量代表一个基本要素(公共因子)。通过原始变量之间的复杂关系对原始变量进行分解,得到公共因子和特殊因子。将原始变量表示成公共因子的线性组合。其中公共因子是所有原始变量中所共同具有的特征,而特殊因子则是原始变量所特有的部分。因子分析强调对新变量(因子)的实际意义的解释。

相关主题