搜档网
当前位置:搜档网 › 因子分析在STATA中实现和案例

因子分析在STATA中实现和案例

因子分析在STATA中实现和案例
因子分析在STATA中实现和案例

第13章因子分析

因子分析始于1904年Chars Spearman对学生成绩的分析,在经济领域有着极为广泛的用途。在多个变量的变化过程中,除了一些特定因素之外,还受到一些共同因素的影响。因此,每个变量可以拆分成两部分,一是共同因素,二是特殊因素。这些共同因素称为公因子,特殊因素称为特殊因子。因子分析即是提出多个变量的公共影响因子的一种多元统计方法,它是主成分分析的推广。

因子分析主要解决两类问题:一是寻求基本结构,简化观察系统。给定一组变量或观察数据,是否存在一个子集,特别是一个加权子集,来解释整个问题,即将为数众多的变量减少为几个新的因子,以再现它们之间的内在联系。二是用于分类,将变量或样本进行分类,根据因子得分值,在因子轴所构成的空间中进行分类处理。

p个变量X的因子模型表达式为:

Λ'

e

f

X+

f称为公因子,Λ称为因子载荷。X的相关系数矩阵分解为:

∑'

=

+

ΛΦΛ

ψ

对于未旋转的因子,1

Φ。ψ称为特殊度,即每个变量中不属于共性的部

=

分。

13.1 因子估计

Stata可以通过变量进行因子分析,也可以通过矩阵进行。命令为factor 或factormat。

webuse bg2,clear

describe

factor bg2cost1-bg2cost6

factor bg2cost1-bg2cost6, factors(2)

* pf 主因子方法,用复相关系数的平方作为因子载荷的估计量(默认选项)

factor bg2cost1-bg2cost6, factors(2) pcf

* pcf 主成分因子,假定共同度=1

factor bg2cost1-bg2cost6, factors(2) ipf

* ipf 迭代主因子,重复估计共同度

factor bg2cost1-bg2cost6, factors(2) ml

* ml 极大似然因子,假定变量(至少3个)服从多元正态分布,对偏相关矩阵的行列式进行最优化求解,等价于Rao的典型因子方法

13.2 预测

Stata可以通过predict预测变量得分、拟合值和残差等。

webuse bg2,clear

factor bg2cost1-bg2cost6

predict f1 f2

* factor1 factor2因子分得分

predict stdp residuals

* 预测标准差和残差

13.3 Estat

Eatat给出了几个非常有用的工具,包括KMO、SMC等指标。

webuse bg2,clear

factor bg2cost1-bg2cost6

estat anti

estat kmo

estat residuals

estat smc

estat summarize

13.4 因子旋转与作图

因子分析的旋转方法以及碎石图、得分图、因子载荷图与主成分分析的方法相同,请参见”主成分分析”一章。

webuse bg2,clear

factor bg2cost1-bg2cost6

screeplot /*碎石图*/

scoreplot /*得分图*/

loadingplot /*因子载荷图*/

rotate /*旋转*/

例:利用2009年的数据对中国社会发展状况进行综合考察,原始数据如下表:

省份人均GDP

(元)

新增固定

资产(亿

元)

城镇居民

人均年可

支配收入

(元)

农村居民

家庭人均

纯收入

(元)

高等学校

数(所)

卫生机构

数(个)

area x1 x2 x3 x4 x5 x6

北京63029 2385.8 24724.89 10661.92 85 6497 天津55473 1676.8 19422.53 7910.78 55 2784 河北23239 4734.2 13441.09 4795.46 105 15632 山西20398 1772.6 13119.05 4097.24 69 9431 内蒙古32214 3309.3 14432.55 4656.18 39 7162 辽宁31259 5056.7 14392.69 5576.48 104 14627 吉林23514 3279.9 12829.45 4932.74 55 9659 黑龙江21727 2405.4 11581.28 4855.59 78 7928 上海73124 2523.2 26674.9 11440.26 66 2822 江苏39622 7645.9 18679.52 7356.47 146 13357 浙江42214 3434.8 22726.66 9257.93 98 15290 安徽14485 2849.5 12990.35 4202.49 104 7837 福建30123 1768.3 17961.45 6196.07 81 4478 江西14781 2962.5 12866.44 4697.19 82 8229

山东33083 6852.5 16305.41 5641.43 125 14973 河南19593 6414 13231.11 4454.24 94 11683 湖北19860 3053.4 13152.86 4656.38 118 10305 湖南17521 2478.2 13821.16 4512.46 115 14455 广东37589 5529.2 19732.86 6399.79 125 15819 广西14966 1419 14146.04 3690.34 68 10427 海南17175 230.2 12607.84 4389.97 16 2220 重庆18025 1381.9 14367.55 4126.21 47 6265 四川15378 2918.7 12633.38 4121.21 90 20738 贵州8824 903 11758.76 2796.93 45 5848 云南12587 1551 13250.22 3102.6 59 9249 西藏13861 137.4 12481.51 3175.82 6 1326 陕西18246 2262.8 12857.89 3136.46 88 8812 甘肃12110 575.2 10969.41 2723.79 39 10534 青海17389 322.8 11640.43 3061.24 9 1582 宁夏17892 403.9 12931.53 3681.42 15 1629 新疆19893 1162.9 11432.1 3502.9 37 6739

程序:

clear

*定义变量的标签

label var area 省份

label var x1 "人均GDP(元)"

label var x2 "新增固定资产(亿元)"

label var x3 "城镇居民人均年可支配收入(元)"

label var x4 "农村居民家庭人均纯收入(元)"

label var x5 "高等学校数(所)"

label var x6 "卫生机构数(个)"

describe

factor x1-x6

screeplot /* 碎石图(特征值等于1处的水平线标示保留主成分的分界点)*/

*检验

estat kmo /*KMO检验,越高越好*/

estat smc /*SMC检验,值越高越好*/

rotate /*旋转*/

loadingplot , yline(0) xline(0)/*载荷图 */

*预测

predict score fit residual q /*预测变量得分、拟合值和残差以及残差的平方和*/ predict f1 f2

label var f1 收入因子

label var f2 "投资、社会因子"

list area f1 f2

summarize f1 f2

correlate f1 f2

scoreplot,xtitle("收入因子") ytitle("投资、社会因子") ///

mlabel(area) yline(0) xline(0) /*得分图*/

分析:

首先通过主因子分析(factor),得到主成分因子:

Factor analysis/correlation Number of obs = 31

Method: principal factors Retained factors = 3

Rotation: (unrotated) Number of params = 15

--------------------------------------------------------------------------

Factor | Eigenvalue Difference Proportion Cumulative

-------------+------------------------------------------------------------

Factor1 | 3.28193 1.42544 0.6554 0.6554

Factor2 | 1.85648 1.81677 0.3707 1.0261

Factor3 | 0.03971 0.06244 0.0079 1.0341

Factor4 | -0.02272 0.03972 -0.0045 1.0295

Factor5 | -0.06244 0.02293 -0.0125 1.0170

Factor6 | -0.08538 . -0.0170 1.0000

--------------------------------------------------------------------------

LR test: independent vs. saturated: chi2(15) = 211.52 Prob>chi2 = 0.0000

Factor loadings (pattern matrix) and unique variances

-----------------------------------------------------------

Variable | Factor1 Factor2 Factor3 | Uniqueness

-------------+------------------------------+--------------

x1_s | 0.8609 -0.4463 -0.1125 | 0.0469

x2_s | 0.6274 0.6026 -0.1061 | 0.2320

x3_s | 0.8800 -0.3931 0.0998 | 0.0611

x4_s | 0.9120 -0.3658 0.0365 | 0.0332

x5_s | 0.6508 0.6526 0.0349 | 0.1494

x6_s | 0.3427 0.7616 0.0572 | 0.2993

-----------------------------------------------------------

从上面的分析可以看出,只有两个成分大于1大于的特征值,同时两个成

分解释了全部六个变量组合的方差还多。不重要的第2 到6个主成分在随后的分析中可以放心地省略去。

运行factor 命令后,我们可以接着运行screeplot 命令画出碎石图。碎石图中特征值等于1处的水平线标示了保留主成分的常用分界点,同时再次强调了本例中的成分3到成分6并不重要。

E i g e n v a l u e s

碎石图

检验的方法还是跟上一章的主成分分析一样,由于我们都是选用实际的数据来进行分析,所以在一般情况下,检验都是通得过的,可以忽略,觉得有需要的再进行检验。

旋转会进一步简化因子结构。在提取因子之后,键入rotate 命令进行旋转。

Factor analysis/correlation Number of obs = 31 Method: principal factors Retained factors = 3 Rotation: orthogonal varimax (Kaiser off) Number of params = 15

-------------------------------------------------------------------------- Factor | Variance Difference Proportion Cumulative -------------+------------------------------------------------------------ Factor1 | 2.90489 0.67214 0.5801 0.5801 Factor2 | 2.23276 2.19228 0.4459 1.0260 Factor3 | 0.04047 . 0.0081 1.0341 -------------------------------------------------------------------------- LR test: independent vs. saturated: chi2(15) = 211.52 Prob>chi2 = 0.0000

Rotated factor loadings (pattern matrix) and unique variances

-----------------------------------------------------------

Variable | Factor1 Factor2 Factor3 | Uniqueness

-------------+------------------------------+--------------

x1 | 0.9659 0.0601 0.1284 | 0.0469

x2 | 0.2269 0.8399 0.1052 | 0.2320

x3 | 0.9585 0.1143 -0.0844 | 0.0611

x4 | 0.9708 0.1546 -0.0211 | 0.0332

x5 | 0.2236 0.8940 -0.0362 | 0.1494

x6 | -0.0962 0.8291 -0.0635 | 0.2993

-----------------------------------------------------------

Factor rotation matrix

-----------------------------------------

| Factor1 Factor2 Factor3

-------------+---------------------------

Factor1 | 0.8578 0.5138 0.0115

Factor2 | -0.5137 0.8579 -0.0135

Factor3 | 0.0168 -0.0056 -0.9998

-----------------------------------------

结合实际情况,我们通过上面的分析整理出前两个主因子的正交因子表。

如下表:

接着进行一个后续因子分析的制图命令loadingplote有助于将其可视化。从图中我们就可以直观的看出在主因子1中x1、x3、x4明显取得较大值,而对于主因子2则是x2、x5、x6取得较大的值。

载荷图

F a c t o r 2

因子分是通过将每个变量标准化为平均数等于0和方差等于1,然后以因子分系数进行加权合计为每个因子构成的线性组合。基于最近的rotate 或factor 结果,predict 会自动进行这些计算。通过命令predict f1 f2,我们得到了各个观察变量的主因子1、主因子2的得分情况。

. list area f1 f2

+--------------------------------+ | area f1 f2 | |--------------------------------| 1. | 北 京 2.561218 -.3716789 | 2. | 天 津 1.557873 -.9623399 | 3. | 河 北 -.3308641 1.11135 | 4. | 山 西 -.4196471 -.1267554 | 5. | 内蒙古 .0597282 -.493462 | |--------------------------------| 6. | 辽 宁 .0589154 1.03599 | 7. | 吉 林 -.1869884 -.0693724 | 8. | 黑龙江 -.3388027 .0518705 | 9. | 上 海 3.102133 -.8749663 |

10. | 江 苏 .7713872 1.864629 | |--------------------------------| 11. | 浙 江 1.640963 .5580102 | 12. | 安 徽 -.5925296 .5026094 | 13. | 福 建 .5376554 -.3128498 | 14. | 江 西 -.445243 .2467043 | 15. | 山 东 .1589503 1.588749 | |--------------------------------| 16. | 河 南 -.4744598 1.084772 | 17. | 湖 北 -.4194019 .7986803 | 18. | 湖 南 -.4611212 .8609527 | 19. | 广 东 .6425342 1.33433 | 20. | 广 西 -.5491737 -.1288966 | |--------------------------------|

21. | 海南 -.2889173 -1.39015 |

22. | 重庆 -.3183038 -.6323313 |

23. | 四川 -.652319 .9108785 |

24. | 贵州 -.9411649 -.6618432 |

25. | 云南 -.7608307 -.2586383 | |--------------------------------| 26. | 西藏 -.6072451 -1.569231 | 27. | 陕西 -.7326311 .1913275 |

28. | 甘肃 -.9497479 -.5987777 |

29. | 青海 -.6269016 -1.50444 |

30. | 宁夏 -.4114082 -1.422286 | |--------------------------------| 31. | 新疆 -.5836563 -.7628338 | +--------------------------------+

. summarize f1 f2

Variable | Obs Mean Std. Dev. Min Max

-------------+--------------------------------------------------------

f1 | 31 -4.09e-09 .988557 -.9497479 3.102133

f2 | 31 9.13e-09 .9464783 -1.569231 1.864629

在这些因子分之间是存在着相关,在默认选项中,promax旋转允许因子分之间存在相关。通过运行命令correlate f1 f2可得。从运行出来的结果看到,两个因子分相关关系是很小的。

. correlate f1 f2

(obs=31)

| f1 f2

-------------+------------------

f1 | 1.0000

f2 | 0.0158 1.0000

另一个后因子分析制图命令,scoreplot可绘出这些观测案例的因子分的散点图。在本例的得分图中,我们可以看到,上海、北京、浙江、天津这些城市的主因子1的得分相对于其他城市高,因为主因子1是收入因子,这些城市的收入在全国是排在前列的。而我们可以看到北京、上海的在主因子2(即投资、社会因子)的得分是较低,这是因为这两个城市的经济总量相对较小。在江苏、山东、广东这些经济总量名列前茅的省份,它们的主因子2的得分也是相应位于其他城市前面。

得分图

练习:

将上一章的主成分分析的例子的数据进行因子分析。

省份

GDP

(亿元)

居民

消费

水平

(元)

固定资

产投资

(亿元)

职工平

均工资

(元)

货物周

转量

(亿吨公

里)

居民消

费价格

指数

(上年

100)

商品零

售价格

指数

(上年

100)

工业总

产值

(亿元)

area x1 x2 x3 x4 x5 x6 x7 x8

北京10488.03 20346 3814.7 56328 758.9 105.1 104.4 10413 天津6354.38 14000 3389.8 41748 2703.4 105.4 105.1 12503 河北16188.61 6570 8866.6 24756 5925.5 106.2 106.7 23031 山西6938.73 6187 3531.2 25828 2562.2 107.2 107.2 10024 内蒙古7761.8 8108 5475.4 26114 3658.7 105.7 104.7 8740.2 辽宁13461.57 9625 10019.1 27729 7033.9 104.6 105.3 24769 吉林6424.06 7591 5038.9 23486 1157.8 105.1 106.2 8406.9 黑龙江8310 7039 3656 23046 1690.9 105.6 105.8 7624.5 上海13698.15 27343 4823.1 56565 16029.8 105.8 105.3 25121 江苏30312.61 11013 15300.6 31667 4300.9 105.4 104.9 67799 浙江21486.92 13893 9323 34146 4974.9 105 106.3 40832 安徽8874.17 6377 6747 26363 5843.2 106.2 106.3 11162

福建10823.11 10361 5207.7 25702 2396.2 104.6 105.7 15213 江西6480.33 5753 4745.4 21000 2285.5 106 106.1 8499.6 山东31072.06 9573 15435.9 26404 10107.8 105.3 104.9 62959 河南18407.78 5877 10490.6 24816 5165.1 107 107.5 26028 湖北11330.38 7406 5647 22739 2526.4 106.3 106.3 13455 湖南11156.64 7145 5534 24870 2349.8 106 105.6 11553 广东35696.46 14390 10868.7 33110 4428.4 105.6 106 65425 广西7171.58 6103 3756.4 25660 2079 107.8 107.6 6072 海南1459.23 6550 705.4 21864 597.7 106.9 106.7 1103.1 重庆5096.66 9835 3979.6 26985 1490.3 105.6 105 5755.9 四川12506.25 6072 7127.8 25038 1578.7 105.1 105.3 14762 贵州3333.4 4426 1864.5 24602 805.3 107.6 107.2 3111.1 云南5700.1 4553 3435.9 24030 821.3 105.7 106.1 5144.6 西藏395.91 3504 309.9 47280 35.5 105.7 103.9 48.19 陕西6851.32 6290 4614.4 25942 2027 106.4 106.9 7480.8 甘肃3176.11 4869 1712.8 24017 1594.9 108.2 107.9 3667.5 青海961.53 5830 583.2 30983 335.7 110.1 110.6 1103.1 宁夏1098.51 7193 828.9 30719 703.6 108.5 108.5 1366.5 新疆4203.41 5542 2260 24687 1273 108.1 108.5 4276.1

STATA面板数据模型操作命令

STATA 面板数据模型估计命令一览表 一、静态面板数据的STATA 处理命令 εαβit ++=x y it i it 固定效应模型 εαμit +=it it 随机效应模型 (一)数据处理 输入数据 ●tsset code year 该命令是将数据定义为“面板”形式 ●xtdes 该命令是了解面板数据结构 ●summarize sq cpi unem g se5 ln 各变量的描述性统计(统计分析) ●gen lag_y= αi αi αi εit ~e it ~1-t e i ,8858.0~=θ5.0-~=θ验:是否存在门槛效应 混合面板: reg is lfr lfr2 hc open psra tp gr,vce(cluster sf) 固定效应、随机效应模型 xtreg is lfr lfr2 hc open psra tp gr,fe est store fe xtreg is lfr lfr2 hc open psra tp gr,re est store re hausman fe 两步系统GMM 模型 xtdpdsys rlt plf1 nai efd op ew ig ,lags(1) maxldep(2) twostep artests(2) 注:rlt 为被解释变量,“plf1 nai efd op ew ig ”为解释变量和控制变量; maxldep(2)表示使用被解释变量的两个滞后值为工具变量;pre ()表示以某一个变量为前定解释变量;endogenous ()表示以某一个变量为内生解释变量。

自相关检验:estat abond 萨甘检验:estat sargan 差分GMM模型 Xtabond rlt plf1 nai efd op ew ig ,lags(1) twostep artests(2) 内生:该解释变量的取值是(一定程度上)由模型决定的。内生变量将违背解释变量与误差项不相关的经典假设,因而内生性问题是计量模型的大敌,可能造成系数估计值的非一致性和偏误;外生:该解释变量的取值是(完全)由模型以外的因素决定的。外生解释变量与误差项完全无关,不论是当期,还是滞后期。 前定:该解释变量的取值与当期误差项无关,但可能与滞后期误差项相关。

Stata软件基本操作和大数据分析报告入门

Stata软件基本操作和数据分析入门 第一讲 Stata操作入门 张文彤赵耐青 第一节概况 Stata最初由美国计算机资源中心(Computer Resource Center)研制,现在为Stata公司的产品,其最新版本为7.0版。它操作灵活、简单、易学易用,是一个非常有特色的统计分析软件,现在已越来越受到人们的重视和欢迎,并且和SAS、SPSS一起,被称为新的三大权威统计软件。 Stata最为突出的特点是短小精悍、功能强大,其最新的7.0版整个系统只有10M左右,但已经包含了全部的统计分析、数据管理和绘图等功能,尤其是他的统计分析功能极为全面,比起1G以上大小的SAS系统也毫不逊色。另外,由于Stata在分析时是将数据全部读入内存,在计算全部完成后才和磁盘交换数据,因此运算速度极快。 由于Stata的用户群始终定位于专业统计分析人员,因此他的操作方式也别具一格,在Windows席卷天下的时代,他一直坚持使用命令行/程序操作方式,拒不推出菜单操作系统。但是,Stata的命令语句极为简洁明快,而且在统计分析命令的设置上又非常有条理,它将相同类型的统计模型均归在同一个命令族下,而不同命令族又可以使用相同功能的选项,这使得用户学习时极易上手。更为令人叹服的是,Stata语句在简洁的同时又拥有着极高的灵活性,用户可以充分发挥自己的聪明才智,熟练应用各种技巧,真正做到随心所欲。

除了操作方式简洁外,Stata的用户接口在其他方面也做得非常简洁,数据格式简单,分析结果输出简洁明快,易于阅读,这一切都使得Stata成为非常适合于进行统计教学的统计软件。 Stata的另一个特点是他的许多高级统计模块均是编程人员用其宏语言写成的程序文件(ADO文件),这些文件可以自行修改、添加和下载。用户可随时到Stata网站寻找并下载最新的升级文件。事实上,Stata的这一特点使得他始终处于统计分析方法发展的最前沿,用户几乎总是能很快找到最新统计算法的Stata程序版本,而这也使得Stata自身成了几大统计软件中升级最多、最频繁的一个。 由于以上特点,Stata已经在科研、教育领域得到了广泛应用,WHO的研究人员现在也把Stata作为主要的统计分析工作软件。 第二节 Stata操作入门 一、Stata的界面 图1即为Stata 7.0启动后的界面,除了Windows版本的软件都有的菜单栏、工具栏,状态栏等外,Stata的界面主要是由四个窗口构成,分述如下: 1.结果窗口:位于界面右上部,软件运行中的所有信息,如所执行的命令、执行结果和出错信息等均在这里列出。窗口中会使用不同的颜色区分不同的文本,如白色表示命令,红色表示错误信息。 2.命令窗口:位于结果窗口下方,相当于DOS软件中的命令行,此处用于键入需要执行的命令,回车后即开始执行,相应的结果则会在结果窗口中显示出来。

5分钟搞定Stata面板数据分析

【原创】5分钟搞定Stata面板数据分析简易教程ver2.0作者:张达 5分钟搞定Stata面板数据分析 简易教程 步骤一:导入数据 原始表如下, 数据请以时间(1998 ,1999,2000, 2001 ??)为横轴,样本名(北京,天津,河北??) 为纵轴 1 裁*■■別1A I 11 ■u 9K ILEXxl- V,j si ao LL B- iic190 ..1( HJ曲1 1 g力?r4 々■l* Mfl 1 KM J| JgRi MM3icm*w II7QQ -HQ SiqD tuff 1 'C4 3 4 IftJV -mi KH>loogi liW (0M 3M9WH jaii I MO Kai W w ■齐itm xm fill OTI Mil taiK ■5W?U|J TXE HH sia心?9 f Id 叼m in a* ft I*■JtaC如M~4 気Hi A|$A rm inoo IM? livra.w vtatr1IJMj X#*4>t1| 筑?BF7 ■?|!N I9*V1IRV gw 1W1VJ I-J H itW Ml ? 稠申审砂y li>M l>R Md w VIM e> mu IM HM 內)944 w 命■ n I L BII i mi 靜Ml hw w 3K:1ST? *7^ FJE inm ifini uni 4 5w 心 HtJ TW JTfl 9MI*HAS ■ilJto KO >4*461/M3 1 <141*11诃却4LJt 4ktt VM匸F w g ivt E4M laM ■ii T PD w im W i.JV 1 P w L*l 1tiZF MM7 <1 H1! liyi 将中文地名替换为数字。

5分钟搞定Stata面板数据分析小教程

5分钟搞定Stata面板数据分析 简易教程 步骤一:导入数据 口令:insheet u sing 文件路径 例如:insheet u sing C:\STUDY\paper\taxi.csv 其中csv格式可用excel的“另存为”导出 数据请以时间(1999,2000,2001 )为横轴,样本名(1,2,3 )为纵轴 请注意:表中不能有中文字符,否则会出现错误。面板数据中不能有空值,没有数据的位置请以0代替。 如图: 也可直接将数据复制粘贴到stata的data e ditor中 如图:

步骤二:调整格式 首先请将代表样本的var1重命名 口令:rename v ar1 样本名 例如:rename v ar1 p rovince

也可直接在var1处双击,在弹出的窗口中修 改: 接下来将数据转化为面板数据的格式 口令:reshape l ong v ar, i(样本名) 例如:reshape l ong v ar, i(province) 其中var代表的是所有的年份(var2,var3,var4 ) 转化后的格式如图:

转化成功后继续重命名,其中_j 这里代表原始表中的年份,var代表该变量的名称 口令例如: rename _j y ear rename v ar t axi 也可直接在需要修改的名称处双击,在弹出的窗口中修改 如图:

步骤三:排序 口令:sort 变量名 例如:sort p rovince y ear 意思为将province按升序排列,然后再根据排好的province数列排year这一列 如图:

[数据分析] 推荐 Stata软件基本操作和数据分析入门

Stata是一套提供其使用者数据分析、数据管理以及绘制专业图表的完整及整合性统计软件。在全球范围内被广泛应用于企业和学术机构中。用Stata 绘制的统计图形相当精美,很有特色。 它与 SPSS、SAS 并称为当今三大统计软件。与后者相比,Stata 体积小巧、简单易懂且功能强大。Stata 把EViews, SPSS 的傻瓜式菜单和SAS 的命令、编程完美结合起来,所以它一推出就受到了初学者和高级用户的普遍欢迎。 01 Stata的功能 标准方法 ?基本表格整理 ?统计分析 ?方差分析 ?经典线性回归 ?Time series ?聚类分析 ?因子分析 ?主成分分析 ?数据处理 ?绘图 高级方法 ?多层模型 ?生存分析 ?动态面板

?编程 ?贝叶斯分析 ?合成控制法 ?面板门限回归 02 Stata的优势 ?操作简单、易学习 ?统计分析功能完备、运行速度快 ?制图图形质量高,出版级别 ?兼容性强、可使用丰富的第三方插件,能应对科研大多数据统计分析需求 ?可混用菜单和命令 ...... 03 适用领域 统计学、经济学、计量经济学、医学 S t a t a 为了帮助同学们更好的学习了解Stata的使用,我们请到了华中科技大学行政管理学博士——宋丽洁,为大家讲解Stata的功能及使用。 通过课程你会对STATA强大的数据处理、统计分析功能的深入了解;获得STATA学习的重要资源;掌握利用STATA提高数据处理的方法;为后续深入学习STATA及数据的统计分析等奠定良好的基础。

04 课程主题 《Stata软件基本操作和数据分析入门》 05 开课时间 7月29日20:00-21:00 07 上课方式 在线视频直播+永久回放+社群交流答疑 08

stata数据分析

合肥学院 《计量经济与实证分析》实验报告 题目:地区财政收入影响因素 学生姓名:朱盈超学号:23 系别:管理系专业:财务管理 提交时间:2015 年11 地区财政收入影响因素 一、实验目的 研究地区财政收入影响的因素有哪些,判断这些因素是否存在多重共线性,并提出解决

二、实验内容 1.用软件计算回归结果 2.根据回归结果判断是否存在多重共线性,提出解决多从共线性的方法 3.判断是否存在其他未被纳入模型的因素 三、实验过程与结论 第一步:构建模型 以财政收入为被解释变量,固定资产投资总额、工业总产值、农林牧渔总产值、社会消费品零售总额以及地区总人口为解释变量建立线性回归模型。 Y=β0 + β1*X1 + β2*X2 + β3*X3 + β4*X4 + β5*X5 + u 其中: Y----财政收入 X1----固定资产投资总额 X2----工业总产值 X3----农林牧渔总产值 X4----社会消费品零售总额 X5----地区总人口 β0、β1、β2、β3、β4、β5----表示待定系数

u----表示随机误差项 第二步:利用stata软件计算回归结果,结果如下: F值, R-square 5个变量由T值看均没有通过显著性检验,R 平方很大,所以可能存在多重共线性这时的模型方程为Y=+第二步进行多重共线性的检验 判断VIF值大小

从结果看出vif=大于10,所以存在多重共线性。下面开始采取补救措施 进行主成分分析 多重共线性检验修正

进行逐步回归剔除X1X2X5变量留下X3X4 从VIF值可以看出多重共线性不存在了 (3)可能还有地区发展不平衡,国际环境不稳定,国家对经济发展的结构性调整等因素影响地区财政收入。 合肥学院 《计量经济与实证分析》实验报告

stata命令大全(全)

*********面板数据计量分析与软件实现********* 说明:以下do文件相当一部分内容来自于中山大学连玉君STATA教程,感谢他的贡献。本人做了一定的修改与筛选。 *----------面板数据模型 * 1.静态面板模型:FE 和RE * 2.模型选择:FE vs POLS, RE vs POLS, FE vs RE (pols混合最小二乘估计) * 3.异方差、序列相关和截面相关检验 * 4.动态面板模型(DID-GMM,SYS-GMM) * 5.面板随机前沿模型 * 6.面板协整分析(FMOLS,DOLS) *** 说明:1-5均用STATA软件实现, 6用GAUSS软件实现。 * 生产效率分析(尤其指TFP):数据包络分析(DEA)与随机前沿分析(SFA) *** 说明:DEA由DEAP2.1软件实现,SFA由Frontier4.1实现,尤其后者,侧重于比较C-D与Translog 生产函数,一步法与两步法的区别。常应用于地区经济差异、FDI溢出效应(Spillovers Effect)、工业行业效率状况等。 * 空间计量分析:SLM模型与SEM模型 *说明:STATA与Matlab结合使用。常应用于空间溢出效应(R&D)、财政分权、地方政府公共行为等。 * --------------------------------- * --------一、常用的数据处理与作图----------- * --------------------------------- * 指定面板格式 xtset id year (id为截面名称,year为时间名称) xtdes /*数据特征*/ xtsum logy h /*数据统计特征*/ sum logy h /*数据统计特征*/ *添加标签或更改变量名 label var h "人力资本" rename h hum *排序 sort id year /*是以STATA面板数据格式出现*/ sort year id /*是以DEA格式出现*/ *删除个别年份或省份 drop if year<1992 drop if id==2 /*注意用==*/

(整理)stata回归分析完整步骤-吐血推荐

stata回归分析完整步骤——吐血推荐 ****下载连乘函数prod,方法为:findit dm71 sort stkcd date //对公司和日期排序 gen r1=1+r //r为实际公司的股票收益率 gen r2=1+r_yq //r_yq为公司的预期股票收益率 egen r3=prod(r1),by(stkcd date) //求每个公司事件日的累计复合收益率 egen r4=prod(r2),by(stkcd date) //求每个公司事件日的累计预期的复合收益率 gen r=r4-r3 capture clear (清空内存中的数据) capture log close (关闭所有打开的日志文件) set mem 128m (设置用于stata使用的内存容量) set more off (关闭more选项。如果打开该选项,那么结果分屏输出,即一次只输出一屏结果。你按空格键后再输出下一屏,直到全部输完。如果关闭则中间不停,一次全部输出。)set matsize 4000 (设置矩阵的最大阶数。我用的是不是太大了?) cd D: (进入数据所在的盘符和文件夹。和dos的命令行很相似。) log using (文件名).log,replace (打开日志文件,并更新。日志文件将记录下所有文件运行后给出的结果,如果你修改了文件内容,replace选项可以将其更新为最近运行的结果。) use (文件名),clear (打开数据文件。) (文件内容) log close (关闭日志文件。) exit,clear (退出并清空内存中的数据。) 假设你清楚地知道所需的变量,现在要做的是检查数据、生成必要的数据并形成数据库供将来使用。检查数据的重要命令包括codebook,su,ta,des和list。其中,codebook提供的信息最全面,缺点是不能使用if条件限制范围,所以,有时还要用别的帮帮忙。su空格加变量名报告相应变量的非缺失的观察个数,均值,标准差,最小值和最大值。ta空格后面加一个(或两个)变量名是报告某个变量(或两个变量二维)的取值(不含缺失值)的频数,比率和按大小排列的累积比率。des后面可以加任意个变量名,只要数据中有。它报告变量的存储的类型,显示的格式和标签。标签中一般记录这个变量的定义和单位。list报告变量的观察值,可以用if或in来限制范围。所有这些命令都可以后面不加任何变量名,

Stata 数据分析

Stata 是一套提供其使用者数据分析、数据管理以及绘制专业图表的完整及整合性统计软件。它提供许许多多功能,包含线性混合模型、均衡重复反复及多项式普罗比模式。新版本的STATA采用最具亲和力的窗口接口,使用者自行建立程序时,软件能提供具有直接命令式的语法。Stata提供完整的使用手册,包含统计样本建立、解释、模型与语法、文献等超过一万余页的出版品。[1] 除了之外,Stata软件可以透过网络实时更新每天的最新功能,更可以得知世界各地的使用者对于STATA公司提出的问题与解决之道。使用者也可以透过 Stata Journal 获得许许多多的相关讯息以及书籍介绍等。另外一个获取庞大资源的管道就是Statalist,它是一个独立的listserver,每月交替提供使用者超过1000个讯息以及50个程序。参见“”、“[2]”、“[3]”、“[4]”等。 编辑本段Stata 的统计功能 Stata 的统计功能很强,除了传统的统计分析方法外,还收集了近 20 年发展起来的新方法,如 Cox 比例风险回归,指数与 Weibull 回归,多类结果与有序结果的 logistic 回归, Poisson 回归,负二项回归及广义负二项回归,随机效应模型等。具体说, Stata 具有如下统计分析能力:数值变量资料的一般分析:参数估计,t检验,单因素和多因素的方差分析,协方差分析,交互效应模型,平衡和非平衡设计,嵌套设计,随机效应,多个均数的两两比较,缺项数据的处理,方差齐性检验,正态性检验,变量变换等。 分类资料的一般分析:参数估计,列联表分析 ( 列联系数,确切概 率 ) ,流行病学表格分析等。 等级资料的一般分析:秩变换,秩和检验,秩相关等 相关与回归分析:简单相关,偏相关,典型相关,以及多达数十种的回归分析方法,如多元线性回归,逐步回归,加权回归,稳键回归,二阶段回归,百分位数 ( 中位数 ) 回归,残差分析、强影响点分析,曲线拟合,随机效应的线性回归模型等。 其他方法:质量控制,整群抽样的设计效率,诊断试验评价, kappa 等。 编辑本段Stata 的作图功能 Stata 的作图模块,主要提供如下八种基本图形的制作 : 直方图(histogram) ,条形图 (bar), 百分条图 (oneway) ,百分圆图 (pie) ,散点图 (twoway) ,散点图矩阵(matrix) ,星形图 (star) ,分位数图。这些图形的巧妙应用,可以满足绝大多数用户的统计作图要求。在有些非绘图命令中,也提供了专门绘制某种图形的功能,如在生存分析中,提供了绘制生存曲线图,回归分析中提供了残差图等。

相关主题