搜档网
当前位置:搜档网 › SAS学习系列20. 用PROC FREQ计算频数及卡方检验

SAS学习系列20. 用PROC FREQ计算频数及卡方检验

SAS学习系列20. 用PROC FREQ计算频数及卡方检验
SAS学习系列20. 用PROC FREQ计算频数及卡方检验

20. 用PROC FREQ计算频数及卡方检验

(一)卡方检验

一、卡方分布

k 个相互独立的标准正态分布变量的平方和服从自由度为k 的卡方分布。

二、卡方检验概述

卡方检验,由英国统计学家Karl Pearson得到,主要应用于计数数据(定性变量中的无序分类变量)的分析,对于总体的分布不作任何假设,因此它属于非参数检验法。

理论证明,实际观察频数(f0)与理论频数(f e, 又称期望频数)之差的平方再除以理论频数所得的统计量,近似服从卡方分布,可表示为:

)(n f f f e e 22

02

~)(χχ∑-= 这是卡方检验的原始公式,其中当f e 越大,近似效果越好。显然f o 与f e 相差越大,卡方值就越大;f o 与f e 相差越小,卡方值就越小;因此它能够用来表示f o 与f e 相差的程度。

根据这个公式,卡方检验的一般问题是要检验名义型变量的实际观测频数和理论频数分布之间是否存在显著差异。

一般卡方检验要求:① 分类相互排斥,互不包容;② 观察值相互独立;③ 样本容量不宜太小,理论频数≥5,否则需要进行校正。如果个别单元格的理论频数小于5,处理方法有四种:

(1)单元格合并法;

(2)增加样本数;

(3)去除样本法;

(4)使用校正公式。

当期望次数小于5时,应该用校正公式计算卡方值:

∑--=e e f f f 2

02)5.0(χ

二、卡方检验的原理

1. 卡方检验所检测的是样本观察频数与理论(或总体)频数的差异性;

2. 理论或总体的分布状况,可用统计的期望值(理论值)来体现;

3. 卡方的统计原理,是取观察频数与期望频数相比较。当观察频数与期望频数完全一致时,2χ值为0;观察频数与期望频数越接近,两者之间的差异越小,2χ值越小;观察频数与期望频数差别越大,两者之间的差异越大,2χ值越大。一旦2χ值大于某一个临界值,即可获得显著的统计结论。

4. 步骤:

原假设H0: 2χ= 0; 备择假设H1: 2χ≠0;

根据数据计算卡方值、P值(右尾面积);

若P值≤α,则拒绝H0; 若P值>α,则接受H0.

三、卡方检验的应用

1. 拟合优度检验

检验单个多项分类名义型变量的各分类间的实际观测次数(根据样本数据得到的实计数)与理论次数(根据理论或经验得到的期望次数)之间是否一致、或者服从理论上的某种分布?这一类检验称为拟合性检验。其自由度通常为分类数减去1。

2. 各变量间的独立性检验(定性变量列联表)

两个或两个以上因素多项分类的计数资料分析,也就是研究两类变量之间的关联性和依存性问题。如果两变量无关联即相互独立,说明对于其中一个变量而言,另一变量多项分类次数上的变化是在无差

范围之内;如果两变量有关联即不独立,说明二者之间有交互作用存在。

独立性检验一般采用列联表的形式记录观察数据, 列联表是由两个以上的变量进行交叉分类的频数分布表,是用于提供基本调查结果的最常用形式,可以清楚地表示定类变量之间是否相互关联。

其自由度是:(行数-1)×(列数-1)

(二)PROC FREQ过程步

一、基本语法:

PROC FREQ data = 数据集;

TABLES 行变量* 列变量/ options;

;

说明:结果将以表格形式(频数表)输出,

TABLES a—单向频数表;

TABLES a*b—a为行,b为列的双向频数表;

TABLES a*b*c—a为分层,b为行,c为列的三维频数表;

TABLES a*(b c)—等价于“TABLES a*b a*c”;

可选项:

(1)AGREE

做配对卡方检验;

(2)CHISQ

做独立性和关联度的卡方检验;

(3)CL

输出关联度的置信限;

(4)CMH

输出Cochran-Mantel-Haenszel统计量,特别对分层二维表;

(5)EXACT

做Fisher精确检验;

(6)MEASURES

输出Pearson and Spearman相关系数、gamma、

Kendall's tau-b、Stuart's tau-c、Somer's D、lambda、

odds ratios、risk ratios、置信区间的关联度;

(7)RELRISK

输出2×2表的相对风险度;

(8)TREND

对趋势做Cochran-Armitage检验;

(9)NOROW, NOCOL, NOPERCENT

不输出行百分比、列百分比、百分比;

二、绘制PROC FREQ的图表

默认也会输出PROC FREQ的图表,若要输出指定图表,需要在TABLES语句中,使用绘图可选项“PLOTS = (plot-list);”即可。可以绘制频数图、优势比图、Agreement图、偏差图、以及两类带Kappa 统计量和置信限的图。

基本语法:

PROC FREQ data = 数据集;

TABLES variable1 * variable2 / options PLOTS = (plot-list);

可选绘图类型:

AGREEPLOT——双向(配对)表

CUMFREQPLOT——单向表

DEVIATIONPLOT——单向(卡方检验)表

FREQPLOT——(任意)

KAPPAPLOT——三维表

ODDSRATIOPLOT——h×2×2(MEASURES or RELRISK)

RELREISKPLOT——h×2×2(MEASURES or RELRISK)

RISKDIFFPLOT——h×2×2(RELRISK)

WTKAPPAPLOT——h×r×r (r>2) (配对表)

注:FREQPLOT可以加选项,例如分组条形图默认是竖直排列,若要改用水平排列,可以用:

TABLES variable1 * variable2 / PLOTS = FREQPLOT(TWOWAY = GROUPHORIZONTAL);

若要堆叠分组条形,用“TWOW AY=STACKED”。

例1一组常规公交车(R: Regular)和快速公交车(E: Express)的延误(L: Late)或准时(O: On Time)的数据(C:\MyRawData\Bus.dat):

读入数据,用PROC FREQ过程步计算频数,并做卡方检验。代码:

infile'c:\MyRawData\Bus.dat';

input BusType $ OnTimeOrLate $ @@;

run;

proc format;

value $type 'R'='Regular'

'E'='Express';

value $late 'O'='On Time'

'L'='Late';

run;

proc freq data = bus;

tables BusType * OnTimeOrLate / NOROW NOCOL CHISQ PLOTS=FREQPLOT(TWOWAY=GROUPHORIZONTAL);

format BusType $Type. OnTimeOrLate $Late.;

运行结果:

程序说明:

(1)常规公交车延迟率为61.9%, 快速公交车延迟率为24.14%;

(2)卡方检验的卡方值为7.2386,P值为0.0071<α=0.05; 说明两种公交车的延迟率有着明显差异,结果具有统计学意义;同时也说明“延误或准时与否”与选择哪种公交车是有关系的;另外,Fisher 精确检验的结果也支持这一结论。

SAS学习系列11.-对数据做简单的描述统计

11. 对数据做简单的描述统计 (一)使用proc means描述数据 用proc means过程步,可以对数据做简单的描述统计,包括:非缺省值个数、均值、标准差、最大值、最小值等。 基本语法: PROC MEANS data = 数据集<可选项>; V AR 变量列表; CLASS 分组变量; (加权平均的权数) (相应观测出现的频数)说明:(1)可选项“MAXDEC = n”用来指定输出结果的小数位数; (2)默认是对数据集的所有数值变量的非缺省值做描述统计,若想包含缺省值,加上可选项“MISSING”; (3)V AR语句指定要做描述统计的变量;CLASS语句指定按分组变量对数据进行分组分别做描述统计;BY语句同CLASS语句(需要事先按BY变量排好序); (4)默认输出非缺省值个数、均值、标准差、最大值、最小值;也可以自己指定需要输出的描述统计量: MAX ——最大值;

MIN——最小值; MEAN——均值; MEDIAN——中位数; MODE——众数; N——非缺省值个数; NMISS——缺省值个数; RANGE——极差; STDDEV——标准差; SUM——累和; 例1 鲜花销售的数据(C:\MyRawData\Flowers.dat),变量包括顾客ID,销售日期,petunias,snapdragons,marigolds三种花的销量: 读取数据,计算新变量销售月份month,并使用proc sort按照月份排序,并使用proc means的by语句来按照月份描述数据。 代码: data sales; infile'c:\MyRawData\Flowers.dat'; input CustID $ @9SaleDate MMDDYY10.Petunia SnapDragon Marigold;

SAS软件运用实验指导书

数据分析 实验指导书 理学院实验中心数学专业实验室编写

实验一SAS系统的使用 【实验类型】(验证性) 【实验学时】2学时 【实验目的】使学生了解SAS系统,熟练掌握SAS数据集的建立及一些必要的SAS语句。 【实验内容】 1. 启动SAS系统,熟悉各个菜单的内容;在编辑窗口、日志窗口、输出窗口之间切换。 2. 建立数据集 表1 Name Sex Math Chinese English Alice f908591 Tom m958784 Jenny f939083 Mike m808580 Fred m848589 Kate f978382 Alex m929091 Cook m757876 Bennie f827984 Hellen f857484 Wincelet f908287 Butt m778179 Geoge m868582 Tod m898484 Chris f898487 Janet f866587 1)通过编辑程序将表1读入数据集sasuser.score; 2)将下面记事本中的数据读入SAS数据集,变量名为code name scale share price: 000096 广聚能源8500 0.059 1000 13.27 000099 中信海直6000 0.028 2000 14.2 000150 ST麦科特12600 -0.003 1500 7.12 000151 中成股份10500 0.026 1300 10.08 000153 新力药业2500 0.056 2000 22.75

3)将下面Excel表格中的数据导入SAS数据集work.gnp; name x1 x2 x3 x4 x5 x6 北京190.33 43.77 7.93 60.54 49.01 90.4 天津135.2 36.4 10.47 44.16 36.49 3.94 河北95.21 22.83 9.3 22.44 22.81 2.8 山西104.78 25.11 6.46 9.89 18.17 3.25 内蒙古128.41 27.63 8.94 12.58 23.99 3.27 辽宁145.68 32.83 17.79 27.29 39.09 3.47 吉林159.37 33.38 18.37 11.81 25.29 5.22 黑龙江116.22 29.57 13.24 13.76 21.75 6.04 上海221.11 38.64 12.53 115.65 50.82 5.89 江苏144.98 29.12 11.67 42.6 27.3 5.74 浙江169.92 32.75 21.72 47.12 34.35 5 安徽153.11 23.09 15.62 23.54 18.18 6.39 福建144.92 21.26 16.96 19.52 21.75 6.73 江西140.54 21.59 17.64 19.19 15.97 4.94 山东115.84 30.76 12.2 33.1 33.77 3.85 河南101.18 23.26 8.46 20.2 20.5 4.3 湖北140.64 28.26 12.35 18.53 20.95 6.23 湖南164.02 24.74 13.63 22.2 18.06 6.04 广东182.55 20.52 18.32 42.4 36.97 11.68 广西139.08 18.47 14.68 13.41 20.66 3.85 四川137.8 20.74 11.07 17.74 16.49 4.39 贵州121.67 21.53 12.58 14.49 12.18 4.57 云南124.27 19.81 8.89 14.22 15.53 3.03 陕西106.02 20.56 10.94 10.11 18 3.29 甘肃95.65 16.82 5.7 6.03 12.36 4.49 青海107.12 16.45 8.98 5.4 8.78 5.93 宁夏113.74 24.11 6.46 9.61 22.92 2.53 新疆123.24 38 13.72 4.64 17.77 5.75 4)使用VIEWTABLE格式新建数据集earn,输入如表所示数据Year earn 1981 125000 1982 136000 1983 122350 1984 65200 1985 844600 1986 255000 1987 265000 1988 280000 1989 136000

完整word版数据分析实验报告分析解析

实验课程:数据分析 信息与计算科学 业: 专 级: 班 号:学 姓名: 中北大学理学院.

实验一 SAS系统的使用 【实验目的】 了解SAS系统,熟练掌握SAS数据集的建立及一些必要的SAS语句。 【实验内容】 1. 将SCORE数据集的内容复制到一个临时数据集test。 SCORE数据集 English Math Sex Chinese Name 91 90 f 85 Alice 95 Tom m 87 84 93 90 Jenny f 83 80 85 80 Mike m 84 85 89 m Fred 97 83 f 82 Kate 92 Alex 90 m 91 75 Cook m 78 76 82 f Bennie 79 84 85 Hellen f 74 84 90 82 Wincelet f 87 77 Butt m 81 79 86 85 Geoge m 82 89 Tod m 84 84 89 Chris f 84 87 86 65 f 87 Janet math的高低拆分到3个不同的数据集:SCORE2.将数据集中的记录按照math大于等于90的到good数据集,math在80到89之间的到normal数据集,math 在80以下的到bad数据集。 3.将3题中得到的good,normal,bad数据集合并。 【实验所使用的仪器设备与软件平台】SAS 【实验方法与步骤】 1: DATA SCORE; INPUT NAME $ Sex $ Math Chinese English; CARDS; 2

91 85 Alice f 90 84 Tom m 95 87 83 f 93 90 Jenny 80 80 85 Mike m 89 85 m Fred 84 82 83 Kate f 97 91 Alex m 92 90 76 Cook m 78 75 84 82 79 f Bennie 84 74 Hellen f 85 87 82 Wincelet f 90 79 Butt m 77 81 82 m 86 85 Geoge 84 89 84 Tod m 87 84 f Chris 89 87 Janet f 86 65 ; ; Run PROC PRINT DATA=SCORE; DATA test; SET SCORE; :2 good normal bad; DATA SCORE; SET; SELECT) output good; 90when(math>=) output normal; 80when(math>=&math<90) output bad; when(math<80; end; Run=good; DATA PRINT PROC=normal; DATA PRINT PROC=bad; DATA PRINT PROC :3 All; DATA good normal bad; SET=All; DATA PROC PRINT;Run 3 【实验结果】 结果一:

SAS中的描述性统计过程

SAS中的描述性统计过程 (2012-08-01 18:07:01) ▼ 分类:数据分析挖掘 标签: 杂谈 SAS中的描述性统计过程 描述性统计指标的计算可以用四个不同的过程来实现,它们分别是means过程、summary过程、univariate过程以及tabulate过程。它们在功能范围和具体的操作方法上存在一定的差别,下面我们大概了解一下它们的异同点。 相同点:他们均可计算出均数、标准差、方差、标准误、总和、加权值的总和、最大值、最小值、全距、校正的和未校正的离差平方和、变异系数、样本分布位置的t检验统计量、遗漏数据和有效数据个数等,均可应用by语句将样本分割为若干个更小的样本,以便分别进行分析。 不同点: (1)means过程、summary过程、univariate过程可以计算样本的偏度(skewness)和峰度(kurtosis),而tabulate过程不计算这些统计量; (2)univariate过程可以计算出样本的众数(mode),其它三个过程不计算众数; (3)summary过程执行后不会自动给出分析的结果,须引用output语句和print过程来显示分析结果,而其它三个过程则会自动显示分析的结果; (4)univariate过程具有统计制图的功能,其它三个过程则没有; (5)tabulate过程不产生输出资料文件(存储各种输出数据的文件),其它三个均产生输出资料文件。 统计制图的过程均可以实现对样本分布特征的图形表示,一般情况下可以使用的有chart过程、plot过程、gchart过程和gplot过程。大家有没有发现前两个和后两个只有一个字母‘g’(代表graph)的差别,其实它们之间(只差一个字母g的过程之间)的统计描述功能是相同的,区别仅在于绘制出的图形的复杂和美观程度。 chart过程和plot过程绘制的图形类似于我们用文本字符堆积起来的图形,只能概括地反映出资料分布的大体形状,实际上这两个过程绘制的图形并不能称之为图形,因为他根本就没有涉及一般意义上图形的任何一种元素(如颜色、分辨率等)。而gchart过程和gplot过程给出的是真正意义上的图形,可以用很多的语句和选项来控制图形的各方面的性质和特征。 chart和gchart与plot和gplot的区别则体现在不同的作图功能,前两个过程可以绘制出的图形主要有条形图(包括横条和竖条)、圆图、环形图和星形图等,后两个过程通常用一个记录中的两个变量值表示点的坐标来绘制图形,如散点图和线图等。 描述性统计过程的一般格式 1. means过程的一般格式 proc means选项列表;

时间序列分析,sas各种模型,作业神器

实验一分析太阳黑子数序列 一、实验目的:了解时间序列分析的基本步骤,熟悉SAS/ETS软件使用方法。 二、实验内容:分析太阳黑子数序列。 三、实验要求:了解时间序列分析的基本步骤,注意各种语句的输出结果。 四、实验时间:2小时。 五、实验软件:SAS系统。 六、实验步骤 1、开机进入SAS系统。 2、创建名为exp1的SAS数据集,即在窗中输入下列语句: 3、保存此步骤中的程序,供以后分析使用(只需按工具条上的保存按钮然后填写完提问 后就可以把这段程序保存下来即可)。 4、绘数据与时间的关系图,初步识别序列,输入下列程序: ods html; ods listing close; 5、run;提交程序,在graph窗口中观察序列,可以看出此序列是均值平稳序列。

6、识别模型,输入如下程序。 7、提交程序,观察输出结果。初步识别序列为AR(2)模型。 8、估计和诊断。输入如下程序: 9、提交程序,观察输出结果。假设通过了白噪声检验,且模型合理,则进行预测。 10、进行预测,输入如下程序: 11、提交程序,观察输出结果。

12、退出SAS系统,关闭计算机。总程序: data exp1; infile "D:\"; input a1 @@;

year=intnx('year','1jan1742'd,_n_-1); format year year4.; ; proc print;run; ods html; ods listing close; proc gplot data=exp1 ; symbol i=spline v=dot h=1 cv=red ci=green w=1; plot a1*year/autovref lvref=2 cframe=yellow cvref=black ; title "太阳黑子数序列"; run; proc arima data=exp1; identify var=a1 nlag=24 minic p=(0:5) q=(0:5); estimate p=3; forecast lead=6 interval=year id=year out=out; run; proc print data=out; run; 选取拟合模型的规则: 1.模型显著有效(残差检验为白噪声)

如何在SAS中实现R×C列联表的两两比较

A14-如何在SAS中实现R×C列联表的两两比较 内容来自网络,侵删 在分析R×C列联表时,在卡方检验有统计意义的情况下常常需要做进一步的多重比较。可以采用的方法为1)卡方分割(具体见本人另外一篇文章《R×C行列表卡方值分割的概念及运用》)将原表卡方值分割成独立的子卡方值,分割后的子卡方值和对应的自由度相加会和原表的卡方值和自由度相等。2)或者采用彼此之间非独立的两两比较。但是两两比较的卡方值和对应的自由度相加不会等于原表卡方值和自由度,所以此类比较不能称为卡方分割法。尽管后者更为灵活但需要调整多重比较的次数以避免增加第一类错误。本文将具体讲解如何在SAS中实现R×C列联表的两两比较。 1.研究数据-血型和疾病类型 假定某医学课题想研究血型(O,A,B)和疾病类型(Peptic Ulcer, Gastric Cancer,Control)是否相互关联, 具体临床数据见表1。 表1:血型和疾病类型行列表 Disease Type Blood Type Peptic Ulcer(I)-1 Gastric Cancer(II)-2 Control(III)-3 Total O-1983(14.024)383(4.9139)2892(1.4159)4258 A-2679(9.0743)416(4.5484)2625(0.679)3720 B-3134(4.6663)84(0.2695)570(0.9519)788 Totals17968836087N=8766

2.初步分析 我们先用SAS/PROC FREQ 和PROC CORRESP 先对数据做初步的分析,来判 断行列变量之间的关系。CELLCHI2 选项是计算按公式2-1计算每个单元格在总体值的组成。 2χ ij ij ij j i E O E C 2 , ) (- =(2-1) proc freq data=paper14; weight count; table r*c/chisq cellchi2nopercent; run; proc corresp data=paper14; weight count; les r, c; tab run; 表2 – 卡方检验结果 Table of r by c r c Frequency Cell Chi-Square Row Pct Col Pct 123Total 1983 14.024 23.09 54.73 383 4.9139 8.99 43.37 2892 1.4159 67.92 47.51 4258 2679 9.0743 18.25 37.81 416 4.5484 11.18 47.11 2625 0.679 70.56 43.12 3720 3134 4.6663 17.01 7.46 84 0.2695 10.66 9.51 570 0.9519 72.34 9.36 788 Total 179688360878766 Statistics for Table of r by c Statistic DF Value Prob ------------------------------------------------------ Chi-Square 4 40.5434 <.0001 Likelihood Ratio Chi-Square 4 40.6401 <.0001 Mantel-Haenszel Chi-Square 1 21.0035 <.0001 Sample Size = 8766

SAS数据的描述性统计分析答案

实验一数据的描述性统计分析 一、选择题 1、以下( B )语句对变量进行分组,在使用前需按分组变量进行排序? 以下( C )语句可对变量进行分类,在使用前不必按分类变量进行排序? 用( A )语句可以选择输入数据集的一个行子集来进行分析? (A)WHERE语句(B)BY语句(C)CLASS语句(D)FREQ语句2、排序过程步中必须用什么语句对变量进行排序?( A ) (A)BY语句(B)CLASS语句(C)WHERE语句 3、如果要对数据集中的数据进行正态性检验,需要使用哪个过程?( B )(A)MEANS (B)UNIV ARIATE (C)FREQ 4、用UNIV ARIATE过程进行数据分析,要求此过程输出茎叶图、正态概率图等,应在语句中加上什么选项?(plot ) 5、用UNIV ARIATE过程进行数据分析,在输出结果中哪个统计量是对样本均值 为零的T检验的概率值?( A ) (A)T: Mean (B)Prob>|S| (C)Sgn Rank (D)Prob>|T| 二、假设某校100名女生的血清总蛋白含量(g/L)服从均值为75,标准差为3的正态分布,试产生样本数据,并利用SAS软件解决下面问题: 1、计算样本均值、方差、标准差、极差、四分位极差、变异系数、偏度、峰度; 2、画出直方图(垂直条形图); 3、画出茎叶图、盒形图和正态概率图; 4、试进行正态性检验。 Data N; DO i=1to100; x=75+3*normal(12345); output; end; proc print; run; proc univariate data=N; var x; run; proc gchart data=N; block x; run; proc univariate data=N plot; var x;

数据分析SAS报告

90-08年人民消费能力分析 一、问题提出 改革开放以来中国经济飞速发展,GDP连续超过德国、日本,现以成为世界上第二大经济体,人民生活水平不断提高,但受金融危机的影响,近几年来物价持续上涨,本月CPI创历史新高,人民的消费能力是否随着GDP的增加而增加呢?本文以中国经济年鉴中的“人民消费支出构成”的数据为依据利用统计软件SAS 进行了相关分析。数据如下 食品衣着居住家庭设备用品及服务交通通讯文教娱乐用品及服务医疗保健其他商品及服务 1990 58.8000 7.7700 17.3400 5.2900 1.4400 5.3700 3.2500 0.7400 1995 58.6200 6.8500 13.9100 5.2300 2.5800 7.8100 3.2400 1.7600 2000 49.1300 5.7500 15.4700 4.5200 5.5800 11.1800 5.2400 3.1400 2005 45.4800 5.8100 14.4900 4.3600 9.5900 11.5600 6.5800 2.1300 2007 43.0800 6.0000 17.8000 4.6300 10.1900 9.4800 6.5200 2.3000 2008 43.6700 5.7900 18.5400 4.7500 9.8400 8.5900 6.7200 2.0900 二、问题分析 1、通过对消费种类进行主成分分析判断人民的消费情况。 2、对主成分标准化后在分析各年的消费能力排名。 三、解决问题 3.1 SAS程序: data examp4_4; input id x1-x8; cards; 1990 58.8000 7.7700 17.3400 5.2900 1.4400 5.3700 3.2500 0.7400 1995 58.6200 6.8500 13.9100 5.2300 2.5800 7.8100 3.2400 1.7600 2000 49.1300 5.7500 15.4700 4.5200 5.5800 11.1800 5.2400 3.1400 2005 45.4800 5.8100 14.4900 4.3600 9.5900 11.5600 6.5800 2.1300 2007 43.0800 6.0000 17.8000 4.6300 10.1900 9.4800 6.5200 2.3000 2008 43.6700 5.7900 18.5400 4.7500 9.8400 8.5900 6.7200 2.0900 ; run; proc corr cov nosimple data=examp4_4; var x1-x8; run; proc princomp data=examp4_4 out=bb; var x1-x8; run; data score1; /*以下程序是对各年按第一主成分得分进行排名并打印结果*/ set bb; keep id prin1;

SAS学习系列20.-用PROC-FREQ计算频数及卡方检验

20. 用PROC FREQ计算频数及卡方检验 (一)卡方检验 一、卡方分布 k 个相互独立的标准正态分布变量的平方和服从自由度为k 的卡方分布。 二、卡方检验概述 卡方检验,由英国统计学家Karl Pearson得到,主要应用于计数数据(定性变量中的无序分类变量)的分析,对于总体的分布不作任何假设,因此它属于非参数检验法。 理论证明,实际观察频数(f0)与理论频数(f e, 又称期望频数)之差的平方再除以理论频数所得的统计量,近似服从卡方分布,可表示为:

)(n f f f e e 22 02 ~)(χχ∑-= 这是卡方检验的原始公式,其中当f e 越大,近似效果越好。显然f o 与f e 相差越大,卡方值就越大;f o 与f e 相差越小,卡方值就越小;因此它能够用来表示f o 与f e 相差的程度。 根据这个公式,卡方检验的一般问题是要检验名义型变量的实际 观测频数和理论频数分布之间是否存在显著差异。 一般卡方检验要求:① 分类相互排斥,互不包容;② 观察值相 互独立;③ 样本容量不宜太小,理论频数≥5,否则需要进行校正。如果个别单元格的理论频数小于5,处理方法有四种: (1)单元格合并法; (2)增加样本数; (3)去除样本法; (4)使用校正公式。 当期望次数小于5时,应该用校正公式计算卡方值: ∑--=e e f f f 2 02)5.0(χ 二、卡方检验的原理 1. 卡方检验所检测的是样本观察频数与理论(或总体)频数的差异性;

2. 理论或总体的分布状况,可用统计的期望值(理论值)来体现; 3. 卡方的统计原理,是取观察频数与期望频数相比较。当观察频数与期望频数完全一致时,2χ值为0;观察频数与期望频数越接近,两者之间的差异越小,2χ值越小;观察频数与期望频数差别越大,两者之间的差异越大,2χ值越大。一旦2χ值大于某一个临界值,即可获得显著的统计结论。 4. 步骤: 原假设H0: 2χ= 0; 备择假设H1: 2χ≠0; 根据数据计算卡方值、P值(右尾面积); 若P值≤α,则拒绝H0; 若P值>α,则接受H0. 三、卡方检验的应用 1. 拟合优度检验 检验单个多项分类名义型变量的各分类间的实际观测次数(根据样本数据得到的实计数)与理论次数(根据理论或经验得到的期望次数)之间是否一致、或者服从理论上的某种分布?这一类检验称为拟合性检验。其自由度通常为分类数减去1。 2. 各变量间的独立性检验(定性变量列联表) 两个或两个以上因素多项分类的计数资料分析,也就是研究两类变量之间的关联性和依存性问题。如果两变量无关联即相互独立,说明对于其中一个变量而言,另一变量多项分类次数上的变化是在无差

SAS EG数据统计分析题库

《SAS EG数据统计分析题库》 单选题 1、分析教师和会计师之间收入的差异,选择什么分析方法最合适? A、卡方分析 B、方差分析 C、两样本T检验 D、相关系数 答案C 2、分析购买不同产品的频次时,使用以下哪个任务? A、列表数据 B、汇总表 C、汇总统计量 D、单因子频数 答案D 3、以下哪个语句可以将字符型数值date(示例:“2001-02-19”)转换为数值类型? A、INPUT(date,YYMMDD10.) B、PUT(date,YYMMDD10) C、INPUT(date,YYMMDD10.) D、PUT(date,YYMMDD10)

答案A 4、来自于总体的样本最主要的属性是什么? A、随机 B、有代表性 C、正态分布 D、连续分布 答案B 5、D—W统计量用于检验? A、异方差 B、自相关 C、解释变量线性相关 D、扰动项不服从正态分布 答案B 6、什么统计量用于检验解释变量之间线性相关 A、标准化的残差 B、D—W统计量

C、Cook's D D、膨胀系数 答案D 7、连续变量右偏的情况下,中位数在均值的? A、左边 B、右边 C、相等 D、无法判断 答案A 8、代表变量离散程度的指标是? A、均值 B、标准差 C、最大值 D、中位数 答案B 9、解释变量是多分类变量,被解释变量是连续变量,使用什么分析方法?

A、卡方分析 B、方差分析 C、两样本T检验 D、相关系数 答案B 10、如果在方差分析中有20个观察值,你要计算残差。那么以下哪个值会是残差和? A、-20 B、0 C、400 D、从已知信息中无法推断 答案B 11、要进行一项研究,比较男女月均信用卡支出。可能使用哪一种统计方法? A、单样本T检验 B、双样本T检验 C、单因素方差分析 D、双因素方差分析 答案、C

SAS数据分析与统计

一、数据集的建立 1.导入Excel数据表的步骤如下: 1) 在SAS应用工作空间中,选择菜单“文件”→“导入数据”,打开导 入向导“Import Wizard”第一步:选择导入类型(Select import type)。 2) 在第二步的“Select file”对话框中,单击“Browse”按钮,在 “打开”对话框中选择所需要的Excel文件,返回。然后,单击“Option” 按钮,选择所需的工作表。(注意Excel文件要是2003的!!) 3) 在第三步的“Select library and member”对话框中,选择导入数据集所存放的逻辑库以及数据集的名称。 4 ) 在第四步的“Create SAS Statements”对话框中,可以选择将系统生成的程序代码存放的位置,完成导入过程。 2.用INSIGHT创建数据集 1)启动SAS INSIGHT模块,在“SAS INSIGHT:Open”对话框的”逻辑库“列表框中,选定库逻辑名 2)单击“新建”按钮,在行列交汇处的数据区输入数据值 (注意列名型变量和区间型变量,这在后面方差分析相关性分析等都要注意!!) 3)数据集的保存: ?“文件”→“保存”→“数据”; ?选择保存的逻辑库名,并输入数据集名; ?单击“确定”按钮。即可保存新建的数据集。 3.用VIEWTABLE窗口建立数据集 1)打开VIEWTABLE窗口 2)单击表头顶端单元格,输入变量名 3)在变量名下方单元格中输入数据

4)变量类型的定义:右击变量名/column attributes… 4.用编程方法建立数据集 DATA 语句; /*DATA步的开始,给出数据集名*/ Input 语句;/*描述输入的数据,给出变量名及数据类型和格式等*/ (用于DATA步的其它语句) Cards; /*数据行的开始*/ [数据行] ; /*数据块的结束*/ RUN; /*提交并执行*/ 例子:data=数据集名字; input name$ phone room height; ($符号代表该列为列名型,就是这一列是文字!! 比如名字,性别,科目等等) cards; rebeccah 424 112 (中间是数据集,中间每一行末尾不要加逗号,但是carol 450 112 数据集最后要加一个分号!!) louise 409 110 gina 474 110 mimi 410 106 alice 411 106 brenda 414 106 brenda 414 105 david 438 141 betty 464 141 holly 466 140 ; proc print data=; (这一过程步是打印出数据集,可要可不要!) run;

sas笔记

一、基本操作 Editor窗口打开sas程序(扩展名*.sas) Log窗口 Output窗口 Explorer窗口 Results窗口 蓝色 绿色 Set Merge If (if。。。thendelete) Drop(keep) 二、描述性统计 1.Proc Format value height 0-50=‘<50’ 50-60=‘50-60’ 60-high=‘>60’ 2. Proc freq data=名字order=freq Tables 列表变量名/out=数据集名norow nocol nopercent(table y*x) Format Label weight=‘高度’ By 变量 3. Proc univariate data=名字 Var 分析变量 Histogram 变量/midpoints=7 to 29 by 2 4. Proc mens 5. Proc gchart Vbar竖直或hbar 横向 Vbar math / group=sex Pie sex/type=percent(以百分数显示) Block math/group=sex 图形关键字绘制的图形类型图形关键字绘制的图形类型Block方块图pie饼形图 Hbar水平的条形图pie3d三维饼形图

6.Proc gplot Plot x*y Symbol value=star color=red 选项 意义 取值 V alue = 符号 表示点使用的符号 plus, x, star, square, diamond, triangle, hash, y, z, paw, point, dot, circle C olor = 颜色 表示点的符号及连线的颜色 black, red, green, blue, cyan,magenta, gray, pink, orange, brown, yellow CV =颜色 专指点的符号的颜色 H = n<单位> 指名符号的大小 单位有:cell, cm, pct, pt, in POINTLABEL 在点的附近表明Y 轴变量的值 i = 连线方式 指明连线的方式 none, join, spline, needle CI = 颜色 专指连线的颜色 L = n n 为线型的序号 0 – 空白线,1 - 实线,2 – 虚线 W idth = n n 表示线的宽度 7.proc g3d data=名字 曲面图 Plot x*y=z 8.proc gcontour data= 曲面图对应的等高线图 Plot x*y=z/nolegend autolabel 三、T 检验 >0.05 接受H0(差异有统计学意义) 用于检验两个样本总体均数是否相等 独立的,来自正态分布的总体 定量资料 对于两组独立样本的定量资料,要求方差相等,两组资料来自正态总体 用proc univariate Proc means Proc ttest (能提供基本统计量的计算,对单样本资料、配对设计资料和两独立样本进行t hbar3d 水平的三维条形图 donut 环形图 Vbar 竖立的条形图 star 星形图 vbar3d 竖立的三维条形图

抑郁(SDS)焦虑自评量表(SAS)_实验报告

抑郁自评量表(SDS)实验报告 一、实验目的 通过实验了解受试抑郁的主观感受、轻重程度及其在治疗中的变化,掌握个别施测的使用方法。掌握抑郁自评量表的原理、实施、记分与结果解释方法。 二、实验材料 大学生心理测验系统 三、实验步骤 3.1 进入大学生心理测验系统后再点击进入人格特点测评项目。 3.2 点击测试项目名称即抑郁自评量表(SDS),进入抑郁自评量表界面。 3.3 输入被试信息,确定后桌面弹出测验指导与窗口,认真阅读指导语: ①在这个问卷测试当中有20个问题,请你依次回答这些问题,答案选项包括“没有或很少时间”、“少部分时间”、“相当多时间”和“绝大部分或全部时间”四个选项,每一测题只能选择一个答案; ②该问卷测试评定的是最近一周的实际感觉; ③本测验不计时间,但应凭自己的直觉反应进行作答,不要迟疑不决,拖延时间; ④有些题目你可能从未思考过,或者感到不太容易回答。对于这样的题目,同样要求你做出一种倾向性的选择。 确定阅读完毕后开始测试。 3.4 按照出现题目的先后顺序作答,直至答题完毕。 四、实验结果 4.1 受试信息 姓名:XXX性别:女年龄: 2 0 文化程度:本科测验耗时:00:00:43 4.2 受试结果 总粗分65 标准总分81.25 参考诊断:有(重度)抑郁症状 重点提示: 抑郁精神性,因子得分:6 抑郁躯体障碍,因子得分:27 抑郁精神运动性障碍,因子得分:6 抑郁心理障碍,因子得分:26 五、实验结果分析 该测试结果提示受试有重度抑郁的倾向,主要表现为: 情绪非常低落,感觉毫无生气,没有愉快的感觉,经常产生无助感或者绝望感,自怨自责。经常有活着太累,想解脱、出现消极的念头,还常哭泣或者整日愁眉苦脸,话语明显少,活动也少,兴趣缺乏,睡眠障碍明显,入睡困难或者早醒,性欲功能基本没有。 六、讨论或思考

SAS中的描述性统计过程(终审稿)

S A S中的描述性统计过 程 公司内部档案编码:[OPPTR-OPPT28-OPPTL98-OPPNN08]

SAS中的描述性统计过程 (2012-08-01 18:07:01) 转载▼ 分类:数据分析挖掘 标签: 杂谈 SAS中的描述性统计过程 描述性统计指标的计算可以用四个不同的过程来实现,它们分别是means过程、summary过程、univariate过程以及tabulate过程。它们在功能范围和具体的操作方法上存在一定的差别,下面我们大概了解一下它们的异同点。 相同点:他们均可计算出均数、标准差、方差、标准误、总和、加权值的总和、最大值、最小值、全距、校正的和未校正的离差平方和、变异系数、样本分布位置的t检验统计量、遗漏数据和有效数据个数等,均可应用by语句将样本分割为若干个更小的样本,以便分别进行分析。 不同点: (1)means过程、summary过程、univariate过程可以计算样本的偏度(skewness)和峰度(kurtosis),而tabulate过程不计算这些统计量; (2)univariate过程可以计算出样本的众数(mode),其它三个过程不计算众数;

(3)summary过程执行后不会自动给出分析的结果,须引用output 语句和print过程来显示分析结果,而其它三个过程则会自动显示分析的结果; (4)univariate过程具有统计制图的功能,其它三个过程则没有; (5)tabulate过程不产生输出资料文件(存储各种输出数据的文件),其它三个均产生输出资料文件。 统计制图的过程均可以实现对样本分布特征的图形表示,一般情况下可以使用的有chart过程、plot过程、gchart过程和gplot过程。大家有没有发现前两个和后两个只有一个字母‘g’(代表graph)的差别,其实它们之间(只差一个字母g的过程之间)的统计描述功能是相同的,区别仅在于绘制出的图形的复杂和美观程度。 chart过程和plot过程绘制的图形类似于我们用文本字符堆积起来的图形,只能概括地反映出资料分布的大体形状,实际上这两个过程绘制的图形并不能称之为图形,因为他根本就没有涉及一般意义上图形的任何一种元素(如颜色、分辨率等)。而gchart过程和gplot过程给出的是真正意义上的图形,可以用很多的语句和选项来控制图形的各方面的性质和特征。 chart和gchart与plot和gplot的区别则体现在不同的作图功能,前两个过程可以绘制出的图形主要有条形图(包括横条和竖条)、圆图、环形图和星形图等,后两个过程通常用一个记录中的两个变量值表示点的坐标来绘制图形,如散点图和线图等。

实验报告七-SAS典型相关分析

实验报告 实验项目名称典型相关分析 所属课程名称统计分析及SAS实现实验类型验证性实验 实验日期2016-12-11 班级数学与应用数学 学号 姓名 成绩

【实验方案设计】 一.理解典型相关分析的概念及步骤; 二.掌握典型相关分析的方法; 三.用INSIGHT、“分析家”计算统计量和编程实现实际问题中的典型相关分析; 【实验过程】(实验步骤、记录、数据、分析) 【练习7-1】对某高中一年级男生38人进行体力测试及运动能力测试,如表所示,试对两组指标作典型相关分析。

34 47 55 113 40 71.4 19 64 7.6 410 29 7 331 35 49 74 120 53 54.5 22 59 6.9 500 33 21 342 36 44 52 110 37 54.9 14 57 7.5 400 29 2 421 37 52 66 130 47 45.9 14 45 6.8 505 28 11 355 38 48 68 100 45 53.6 23 70 7.2 522 28 9 352 其中,体力测试指标为:X 1-------反复横向跳(次),X 2 -------纵跳(cm), X 3------背力(kg),X4------捏力(kg),X 5 -----台阶测试(指数),X 6 ------ 定向体前屈(cm),X 7 -------俯卧上提后仰(cm)。 运动能力测试的指标为y 1-50m跑(s),y 2 -跳远(cm),y 3 -投球(m),y 4 引体 向上(次),y 5 -耐力跑(s)。 【解答】 利用INSIGHT模块进行典型相关分析: 结果: 表7.1 Univariate Statistics Variable N Mean Std Dev Minimum Maximum y1 38 7.1316 0.3354 6.6000 8.0000 y2 38 441.8421 43.2138 362.0000 522.0000 y3 38 27.8158 2.7495 21.0000 33.0000 y4 38 7.5263 3.8326 2.0000 21.0000

sas数据挖掘与应用实验报告

SAS 数据挖掘与应用 实验报告 陕西省各地市经济发展水平评价研究

实验要求: 1. 选择经济领域中的一个问题,确定相关的分析变量,描述通过数据挖掘来探究(或解释、或解决)问题的逻辑思路,说明预期的结果(结论)等。 2. 查询和搜集相关原始数据 3. 整理、准备数据,建立数据集 4. 采用二种或二种以上的挖掘方法,或进行对比分析,或先后进行多个阶段的分析。 5. 对挖掘结果进行分析和说明。 6. 总结研究结论或结果。 实验目的: 1.熟悉SAS软件操作 2.练习SAS编程 3.学习并练习描述性统计分析、因子分析等方法与实际操作 4.研究实际问题 问题描述: 陕西省各市的经济发展一直受到陕西人民的关注,而对于2014年如何分析各市的发展情况,一直是一个仁者见仁的问题,指标体系的建立以及研究方法的选择多种多样,本文以各市2014年各市的重要经济发展指标出发,对11个地市的经济发展进行评价

解决思路: 为了研究上述问题,我们应当以2014年的各地市相关经济发展指标为数据源,通过描述性统计分析对整体数据进行初步了解;并利用主成分分析对2014年各地市的经济发展进行一个综合评价和排序。 1.描述性分析 2.主成分分析 实验过程: 1.搜集数据 通过陕西省统计局网站搜寻到2014年各地市经济发展的指标并汇总,选择其中的五个指标(生产总值、财政收入、固定资产投资、外贸进出口总额、人均可支配收入),得到如下数据: 2.数据准备和预处理 首先建立数据集,我将数据存在D:\saswork.sas中

为便于进行分析,将生产总值、财政收入、固定资产投资、外贸进出口、人均可支配收入均用X1-X5代替。 3.描述性统计分析 ①单变量分析: 首先要对数据的基本情况有一个初步的了解,因此先进行单变量分析。再次我们利用means过程计算一些描述性统计量,编写程序如下: proc means data=saswork.sas maxdec=2 mean std max min range cv skewness; var x1-x5; run; 运行结果如下: 分析: 陕西省各市生产总值平均水平约为1613亿元,从标准差看来,无论是哪个指标都有着较大的差异,而且变异系数除了X5(人均收入)外其他都有着较高的值,这也说明了各地市的经济发展水平不同,而且在最大值的选择中,西安市的值正好与最大值相对应,说明西安市的经济发展处于绝对优势地位,但仅仅如此并不能反映出更多的信息,因此进行接下来的进一步统计指标计算和分析。 ②相关系数分析和P值检验 代码如下: proc corr data=saswork.sas; var x1-x5; run; 运行后得到相关系数矩阵:

相关主题