搜档网
当前位置:搜档网 › 描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。

描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。

描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。
描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。

一、描述统计

描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。

1、缺失值填充:常用方法:剔除法、均值法、最小邻居法、比率回归法、决策树法。

2、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。

二、假设检验

1、参数检验

参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验。

1)U验使用条件:当样本含量n较大时,样本值符合正态分布

2)T检验使用条件:当样本含量n较小时,样本值符合正态分布

A 单样本t检验:推断该样本来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别;

B 配对样本t检验:当总体均数未知时,且两个样本可以配对,同对中的两者在可能会影响处理效果的各种条件方面扱为相似;

C 两独立样本t检验:无法找到在各方面极为相似的两样本作配对比较时使用。

2、非参数检验

非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一股性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。

适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。

A 虽然是连续数据,但总体分布形态未知或者非正态;

B 体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下;

主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。

三、信度分析

检査测量的可信度,例如调查问卷的真实性。

分类:

1、外在信度:不同时间测量时量表的一致性程度,常用方法重测信度

2、内在信度;每个量表是否测量到单一的概念,同时组成两表的内在体项一致性如

何,常用方法分半信度。

四、列联表分析

用于分析离散变量或定型变量之间是否存在相关。

对于二维表,可进行卡方检验,对于三维表,可作Mentel-Hanszel分层分析。列联表分析还包括配对计数资料的卡方检验、行列均为顺序变量的相关检验。

五、相关分析

研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关方向及相关程度。

1、单相关:两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量;

2、复相关:三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以上的自变量和因变量相关;

3、偏相关:在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量之间的相关关系称为偏相关。

六、方差分析

使用条件:各样本须是相互独立的随机样本;各样本来自正态分布总体;各总体方差相等。

分类

1、单因素方差分析:一项试验只有一个影响因素,或者存在多个影响因素时,只分析一个因素与响应变量的关系

2、多因素有交互方差分析:一顼实验有多个影响因素,分析多个影响因素与响应变量的关系,同时考虑多个影响因素之间的关系

3、多因素无交互方差分析:分析多个影响因素与响应变量的关系,但是影响因素之间没有影响关系或忽略影响关系

4、协方差分祈:传统的方差分析存在明显的弊端,无法控制分析中存在的某些随机

因素,使之影响了分祈结果的准确度。协方差分析主要是在排除了协变量的影响后再对修正后的主效应进行方差分析,是将线性回归与方差分析结合起来的一种分析方法,

七、回归分析

分类:

1、一元线性回归分析:只有一个自变量X与因变量Y有关,X与Y都必须是连续

型变量,因变量y或其残差必须服从正态分布。

2、多元线性回归分析

使用条件:分析多个自变量与因变量Y的关系,X与Y都必须是连续型变量,因变

量y或其残差必须服从正态分布。

1)变呈筛选方式:选择最优回归方程的变里筛选法包括全横型法(CP法)、逐步回归法,向前引入法和向后剔除法

2)横型诊断方法:

A 残差检验:观测值与估计值的差值要艰从正态分布

B 强影响点判断:寻找方式一般分为标准误差法、Mahalanobis距离法

C 共线性诊断:

?诊断方式:容忍度、方差扩大因子法(又称膨胀系数VIF)、特征根判定法、条件指针CI、方差比例

?处理方法:增加样本容量或选取另外的回归如主成分回归、岭回归等

3、Logistic回归分析

线性回归模型要求因变量是连续的正态分布变里,且自变量和因变量呈线性关系,而Logistic回归模型对因变量的分布没有要求,一般用于因变量是离散时的情况

分类:

Logistic回归模型有条件与非条件之分,条件Logistic回归模型和非条件Logistic 回归模型的区别在于参数的估计是否用到了条件概率。

4、其他回归方法非线性回归、有序回归、Probit回归、加权回归等

八、聚类分析

样本个体或指标变量按其具有的特性进行分类,寻找合理的度量事物相似性的统计量。

1、性质分类:

Q型聚类分析:对样本进行分类处理,又称样本聚类分祈使用距离系数作为统计量衡量相似度,如欧式距离、极端距离、绝对距离等

R型聚类分析:对指标进行分类处理,又称指标聚类分析使用相似系数作为统计量衡量相似度,相关系数、列联系数等

2、方法分类:

1)系统聚类法:适用于小样本的样本聚类或指标聚类,一般用系统聚类法来聚类指标,又称分层聚类

2)逐步聚类法:适用于大样本的样本聚类

3)其他聚类法:两步聚类、K均值聚类等

九、判别分析

1、判别分析:根据已掌握的一批分类明确的样品建立判别函数,使产生错判的事例最少,进而对给定的一个新样品,判断它来自哪个总体

2、与聚类分析区别

1)聚类分析可以对样本逬行分类,也可以对指标进行分类;而判别分析只能对样本

2)聚类分析事先不知道事物的类别,也不知道分几类;而判别分析必须事先知道事物的类别,也知道分几类

3)聚类分析不需要分类的历史资料,而直接对样本进行分类;而判别分析需要分类历史资料去建立判别函数,然后才能对样本进行分类

3、进行分类:

1)Fisher判别分析法:

以距离为判别准则来分类,即样本与哪个类的距离最短就分到哪一类,适用于两类判别;

以概率为判别准则来分类,即样本属于哪一类的概率最大就分到哪一类,适用于适用于多类判别。

2)BAYES判别分析法:

BAYES判别分析法比FISHER判别分析法更加完善和先进,它不仅能解决多类判别分析,而且分析时考虑了数据的分布状态,所以一般较多使用;

十、主成分分析

将彼此梠关的一组指标变适转化为彼此独立的一组新的指标变量,并用其中较少的几个新指标变量就能综合反应原多个指标变量中所包含的主要信息。

十一、因子分析

一种旨在寻找隐藏在多变量数据中、无法直接观察到却影响或支配可测变量的潜在因子、并估计潜在因子对可测变量的影响程度以及潜在因子之间的相关性的一种多元统计分析方法

与主成分分析比较:

相同:都能够起到済理多个原始变量内在结构关系的作用

不同:主成分分析重在综合原始变适的信息.而因子分析重在解释原始变量间的关系,是比主成分分析更深入的一种多元统计方法

用途:

1)减少分析变量个数

2)通过对变量间相关关系探测,将原始变量进行分类

十二、时间序列分析

动态数据处理的统计方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题;时间序列通常由4种要素组成:趋势、季节变动、循环波动和不规则波动。

主要方法:移动平均滤波与指数平滑法、ARIMA横型、量ARIMA横型、ARIMAX 模型、向呈自回归横型、ARCH族模型

十三、生存分析

用来研究生存时间的分布规律以及生存时间和相关因索之间关系的一种统计分析方法

1、包含内容:

1)描述生存过程,即研究生存时间的分布规律

2)比较生存过程,即研究两组或多组生存时间的分布规律,并进行比较

3)分析危险因素,即研究危险因素对生存过程的影响

4)建立数学模型,即将生存时间与相关危险因素的依存关系用一个数学式子表示出来。

2、方法:

1)统计描述:包括求生存时间的分位数、中数生存期、平均数、生存函数的估计、判断生存时间的图示法,不对所分析的数据作出任何统计推断结论

2)非参数检验:检验分组变量各水平所对应的生存曲线是否一致,对生存时间的分布没有要求,并且检验危险因素对生存时间的影响。

A 乘积极限法(PL法)

B 寿命表法(LT法)

3)半参数横型回归分析:在特定的假设之下,建立生存时间随多个危险因素变化的回归方程,这种方法的代表是Cox比例风险回归分析法

4)参数模型回归分析:已知生存时间服从特定的参数横型时,拟合相应的参数模型,更准确地分析确定变量之间的变化规律

十四、典型相关分析

相关分析一般分析两个变里之间的关系,而典型相关分析是分析两组变里(如3个学术能力指标与5个在校成绩表现指标)之间相关性的一种统计分析方法。

典型相关分析的基本思想和主成分分析的基本思想相似,它将一组变量与另一组变量之间单变量的多重线性相关性研究转化为对少数几对综合变量之间的简单线性相关性的研究,并且这少数几对变量所包含的线性相关性的信息几乎覆盖了原变量组所包含的全部相应信息。

十五、R0C分析

R0C曲线是根据一系列不同的二分类方式(分界值或决定阈).以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线

用途:

1、R0C曲线能很容易地査出任意界限值时的对疾病的识别能力

用途;

2、选择最佳的诊断界限值。R0C曲线越靠近左上角,试验的准确性就越高;

3、两种或两种以上不同诊断试验对疾病识别能力的比较,一股用R0C曲线下面积反映诊断系统的准确性。

十六、其他分析方法

多重响应分析、距离分祈、项目分祈、对应分祈、决策树分析、神经网络、系统方程、蒙特卡洛模拟等。

16种常用的数据分析方法汇总

一、描述统计 描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。 1、缺失值填充:常用方法:剔除法、均值法、最小邻居法、比率回归法、决策树法。 2、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。 二、假设检验 1、参数检验 参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验。 1)U验使用条件:当样本含量n较大时,样本值符合正态分布 2)T检验使用条件:当样本含量n较小时,样本值符合正态分布 A 单样本t检验:推断该样本来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别; B 配对样本t检验:当总体均数未知时,且两个样本可以配对,同对中的两者在可能会影响处理效果的各种条件方面扱为相似;

C 两独立样本t检验:无法找到在各方面极为相似的两样本作配对比较时使用。 2、非参数检验 非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一股性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。 A 虽然是连续数据,但总体分布形态未知或者非正态; B 体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下; 主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。 三、信度分析 检査测量的可信度,例如调查问卷的真实性。 分类: 1、外在信度:不同时间测量时量表的一致性程度,常用方法重测信度 2、内在信度;每个量表是否测量到单一的概念,同时组成两表的内在体项一致性如何,常用方法分半信度。 四、列联表分析 用于分析离散变量或定型变量之间是否存在相关。

应用统计学案例统计调查方案设计

应用统计学案例统计调查方案设计

统计调查方案设计案例 ▲统计调查方案的内容和撰写: 一、统计调查方案的主要内容 1、确定统计调查目的和任务 2、确定调查对象和调查单位 调查对象是指依据调查的任务和目的,确定本次调查的范围及需要调查的那些现象的总体。 调查单位是指所要调查的现象总体所组成的个体,也就是调查对象中所要调查的具体单位,即我们在调查中要进行调查研究的一个个具体的承担者。 3、确定调查内容和调查表 (1)调查课题如何转化为调查内容 调查课题转化为调查内容是把已经确定了的调查课题进行概念化和具体化。 (2)调查内容如何转化为调查表 如何把调查内容设计为调查表,这一问题会在下一章中专门介绍。 4、调查方式和调查方法 5、调查项目定价与预算 6、统计数据分析方案 7、其它内容

包括确定调查时间,安排调查进度,确定提交报告的方式,调查人员的选择、培训和组织等。 二、统计调查方案的撰写 1、统计调查方案的格式 包括摘要、前言、统计调查的目的和意义、统计调查的内容和范围、调查采用方式和方法、调查进度安排和有关经费开支预算、附件等部分。 2、撰写统计调查方案应注意的问题 (1)一份完整的统计调查方案,上述1—7部分的内容均应涉及,不能有遗漏。否则就是不完整的。 (2)统计调查方案的制订必须建立在对调查课题的背景的深刻认识上。 (3)统计调查方案要尽量做到科学性与经济性的结合。 (4)统计调查方案的格式方面能够灵活,不一定要采用固定格式。 (5)统计调查方案的书面报告是非常重要的一项工作。一般来说,统计调查方案的起草与撰写应由课题的负责人来完成。三、统计调查方案的可行性研究 (一)统计调查方案的可行性研究的方法 1、逻辑分析法 逻辑分析法是指从逻辑的层面对统计调查方案进行把关,考察其是否符合逻辑和情理。

统计学教案习题06分类资料的统计描述

第六章 分类资料的统计描述 一、教学大纲要求 (一)掌握内容 1. 绝对数。 2. 相对数常用指标:率、构成比、比。 3. 应用相对数的注意事项。 4. 率的标准化和动态数列常用指标:标准化率、标准化法、时点动态数列、时期动态数列、绝对增长量、发展速度、增长速度、定基比、环比、平均发展速度和平均增长速度。 (二)熟悉内容 1. 标准化率的计算。 2. 动态数列及其分析指标。 二、教学内容精要 (一) 绝对数 绝对数是各分类结果的合计频数,反映总量和规模。如某地的人口数、发病人数、死亡人数等。绝对数通常不能相互比较,如两地人口数不等时,不能比较两地的发病人数,而应比较两地的发病率。 (二)常用相对数的意义及计算 相对数是两个有联系的指标之比,是分类变量常用的描述性统计指标,常用两个分类的绝对数之比表示相对数大小,如率、构成比、比等。 常用相对数的意义及计算见表6-1。 表6-1 常用相对数的意义及计算 常用相对数 概念 表示方式 计算公式 举例 率 (rate ) 又称频率指标,说明一定时期内某现象发生的频率或强度 百分率(%)、千分率 (‰)等 单位时间内的发病率、患病 率,如年(季)发病率、时 点患病率等 构成比 (proportion ) 又称构成指标,说明某一事物内部各组成 部分所占的比重或分布 百分数 疾病或死亡的顺位、位次或所占比重 比 (ratio ) 又称相对比,是A 、B 两个有关指标之 比,说明A 是B 的若干倍或百分之几 倍数或分数 ①对比指标,如男:女 =106.04:100 ②关系指标,如医护人员:病床数=1.64 ③计划完成指标,如完成计划的130.5% (三) 应用相对数时应注意的问题 1. 计算相对数的分母一般不宜过小。 2. 分析时不能以构成比代替率 容易产生的错误有 (1)指标的选择错误如住院病人只能计算某病的病死率,不能认为是某病的死亡率; (2)若用构成指标下频率指标的结论将导致错误结论,如 某部队医院收治胃炎的门诊人数中军人的构成比最高,但不一定军人的胃炎发病率最高。 %100?=单位总数 可能发生某现象的观察数 发生某现象的观察单位率%100?= 观察单位总数 同一事物各组成部分的位数某一组成部分的观察单构成比B A = 比

多元统计分析案例分析.docx

精品资料 一、对我国30个省市自治区农村居民生活水平作聚类分析 1、指标选择及数据:为了全面分析我国农村居民的生活状况,主要考虑从收入、消费、就业等几个方面对农村居民的生活状况进行考察。因此选取以下指标:农村产品价格指数、农村住宅投资、农村居民消费水平、农村居民消费支出、农村居民家庭人均纯收入、耕地面积及农村就业人数。现从2010年的调查资料中

2、将数据进行标准化变换:

3、用K-均值聚类法对样本进行分类如下:

分四类的情况下,最终分类结果如下: 第一类:北京、上海、浙江。 第二类:天津、、辽宁、、福建、甘肃、江苏、广东。 第三类:浙江、河北、内蒙古、吉林、黑龙江、安徽、山东、河南、湖北、四川、云南。 第四类:山西、青海、宁夏、新疆、重庆、贵州、陕西、湖南、广西、江西、。从分类结果上看,根据2010年的调查数据,第一类地区的农民生活水平较高,第二类属于中等水平,第三类、第四类属于较低水平。 二、判别分析 针对以上分类结果进行判别分析。其中将新疆作作为待判样本。判别结果如下:

**. 错误分类的案例 从上可知,只有一个地区判别组和原组不同,回代率为96%。 下面对新疆进行判别: 已知判别函数系数和组质心处函数如下: 判别函数分别为:Y1=0.18x1 +0.493x2 + 0.087x3 + 1.004x4 + 0.381x5 -0.041x6 -0.631x7 Y2=0.398x1+0.687x2 + 0.362x3 + 0.094x4 -0.282x5 + 1.019x6 -0.742x7 Y3=0.394x1-0.197x2 + 0.243x3-0.817x4 + 0.565x5-0.235x6 + 0.802x7 将西藏的指标数据代入函数得:Y1=-1.08671 Y2=-0.62213 Y3=-0.84188 计算Y值与不同类别均值之间的距离分别为:D1=138.5182756 D2=12.11433124 D3=7.027544292 D4=2.869979346 经过判别,D4最小,所以新疆应归于第四类,这与实际情况也比较相符。 三,因子分析: 分析数据在上表的基础上去掉两个耕地面积和农村固定资产投资两个指标。经spss软件分析结果如下:

matlab在统计数据的描述性分析的应用

统计数据的描述性分析 一、实验目的 熟悉在matlab中实现数据的统计描述方法,掌握基本统计命令:样本均值、样本中位数、样本标准差、样本方差、概率密度函数pdf、概率分布函数df、随机数生成rnd。 二、实验内容 1 、频数表和直方图 数据输入,将你班的任意科目考试成绩输入 >> data=[91 78 90 88 76 81 77 74]; >> [N,X]=hist(data,5) N = 3 1 1 0 3 X = 75.7000 79.1000 82.5000 85.9000 89.3000 >> hist(data,5)

2、基本统计量 1) 样本均值 语法: m=mean(x) 若x 为向量,返回结果m是x 中元素的均值; 若x 为矩阵,返回结果m是行向量,它包含x 每列数据的均值。 2) 样本中位数 语法: m=median(x) 若x 为向量,返回结果m是x 中元素的中位数; 若x 为矩阵,返回结果m是行向量,它包含x 每列数据的中位数3) 样本标准差 语法:y=std(x) 若x 为向量,返回结果y 是x 中元素的标准差; 若x 为矩阵,返回结果y 是行向量,它包含x 每列数据的标准差

std(x)运用n-1 进行标准化处理,n是样本的个数。 4) 样本方差 语法:y=var(x); y=var(x,1) 若x 为向量,返回结果y 是x 中元素的方差; 若x 为矩阵,返回结果y 是行向量,它包含x 每列数据的方差 var(x)运用n-1 进行标准化处理(满足无偏估计的要求),n 是样本的个数。var(x,1)运用n 进行标准化处理,生成关于样本均值的二阶矩。 5) 样本的极差(最大之和最小值之差) 语法:z= range(x) 返回结果z是数组x 的极差。 6) 样本的偏度 语法:s=skewness(x) 说明:偏度反映分布的对称性,s>0 称为右偏态,此时数据位于均值右边的比左边的多;s<0,情况相反;s 接近0 则可认为分布是对称的。 7) 样本的峰度 语法:k= kurtosis(x) 说明:正态分布峰度是3,若k 比3 大得多,表示分布有沉重的尾巴,即样本中含有较多远离均值的数据,峰度可以作衡量偏离正态分布的尺度之一。 >> mean(data) ,

描述性统计分析报告--Descriptive Statistics菜单详解

第六章:描述性统计分析-- Descriptive Statistics菜单详解 描述性统计分析是统计分析的第一步,做好这第一步是下面进行正确统计推断的先决条件。SPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在Descriptive Statistics菜单中,最常用的是列在最前面的四个过程:Frequencies过程的特色是产生频数表;Descriptives过程则进行一般性的统计描述;Explore过程用于对数据概况不清时的探索性分析;Crosstabs 过程则完成计数资料和等级资料的统计描述和一般的统计检验,我们常用的X2检验也在其中完成。 本章讲述的四个过程在9.0及以前版本中被放置在Summarize菜单中。 §6.1 Frequencies过程 频数分布表是描述性统计中最常用的方法之一,Frequencies过程就是专门为产生频数表而设计的。它不仅可以产生详细的频数表,还可以按要求给出某百分位点的数值,以及常用的条图,圆图等统计图。 和国内常用的频数表不同,几乎所有统计软件给出的均是详细频数表,即并 不按某种要求确定组段数和组距,而是按照数值精确列表。如果想用Frequencies过程得到我们所熟悉的频数表,请先用第二章学过的Recode过程产生一个新变量来代表所需的各组段。 6.1.1 界面说明 Frequencies对话框的界面如下所示:

该界面在SPSS中实在太普通了,无须多言,重点介绍一下各部分的功能如下:【Display frequency tables复选框】 确定是否在结果中输出频数表。 【Statistics钮】 单击后弹出Statistics对话框如下,用于定义需要计算的其他描述统计量。 现将各部分解释如下:

统计案例分析典型例题

统计案例分析及典型例题 §抽样方法 1.为了了解所加工的一批零件的长度,抽取其中200个零件并测量了其长度,在这个问题中,总体的一个样本是 . 答案 200个零件的长度 2.某城区有农民、工人、知识分子家庭共计2 004户,其中农民家庭1 600户,工人家庭303户,现要从中抽取容量为40的样本,则在整个抽样过程中,可以用到下列抽样方法:①简单随机抽样,②系统抽样,③分层抽样中的 . 答案①②③ 3.某企业共有职工150人,其中高级职称15人,中级职称45人,初级职称90人.现采用分层抽样抽取容量为30的样本,则抽取的各职称的人数分别为 . 答案3,9,18 4.某工厂生产A、B、C三种不同型号的产品,其相应产品数量之比为2∶3∶5,现用分层抽样方法抽出一个容量为n的样本,样本中A型号产品有16件,那么此样本的容量n= . 答案80 例1某大学为了支援我国西部教育事业,决定从2007应届毕业生报名的18名志愿者中,选取6人组成志愿小组.请 用抽签法和随机数表法设计抽样方案. 解抽签法: 第一步:将18名志愿者编号,编号为1,2,3, (18) 第二步:将18个号码分别写在18张外形完全相同的纸条上,并揉成团,制成号签; 第三步:将18个号签放入一个不透明的盒子里,充分搅匀; 第四步:从盒子中逐个抽取6个号签,并记录上面的编号; 基础自测

第五步:所得号码对应的志愿者,就是志愿小组的成员. 随机数表法: 第一步:将18名志愿者编号,编号为01,02,03, (18) 第二步:在随机数表中任选一数作为开始,按任意方向读数,比如第8行第29列的数7开始,向右读; 第三步:从数7开始,向右读,每次取两位,凡不在01—18中的数,或已读过的数,都跳过去不作记录,依次可得到12,07,15,13,02,09. 第四步:找出以上号码对应的志愿者,就是志愿小组的成员. 例2 某工厂有1 003名工人,从中抽取10人参加体检,试用系统抽样进行具体实施. 解 (1)将每个人随机编一个号由0001至1003. (2)利用随机数法找到3个号将这3名工人剔除. (3)将剩余的1 000名工人重新随机编号由0001至1000. (4)分段,取间隔k= 10 0001=100将总体均分为10段,每段含100个工人. (5)从第一段即为0001号到0100号中随机抽取一个号l. (6)按编号将l ,100+l ,200+l,…,900+l 共10个号码选出,这10个号码所对应的工人组成样本. 例3 (14分)某一个地区共有5个乡镇,人口3万人,其中人口比例为3∶2∶5∶2∶3,从3万人中抽取一个300人 的样本,分析某种疾病的发病率,已知这种疾病与不同的地理位置及水土有关,问应采取什么样的方法并写出具体过程. 解 应采取分层抽样的方法. 3分 过程如下: (1)将3万人分为五层,其中一个乡镇为一层. 5分 (2)按照样本容量的比例随机抽取各乡镇应抽取的样本. 300×153=60(人);300× 15 2 =40(人); 300×155=100(人);300×15 2=40(人); 300× 15 3=60(人), 10分 因此各乡镇抽取人数分别为60人,40人,100人,40人,60人. 12分 (3)将300人组到一起即得到一个样本. 14分

分类资料的统计分析(doc 24页)

第十章分类资料的统计分析 A型选择题 1、下列指标不属于相对数的是() A、率 B、构成比 C、相对比 D、百分位数 E、比 2、表示某现象发生的频率或强度用 A 构成比 B 观察单位 C 相对比 D 率 E 百分比 3、下列哪种说法是错误的() A、计算相对数尤其是率时应有足够数量的观察单位数或观察次数 B、分析大样本数据时可以构在比代替率 C、应分别将分子和分母合计求合计率或平均率 D、相对数的比较应注意其可比性 E、样本率或构成比的比较应作假设检验 4、以下哪项指标不属于相对数指标( ) A.出生率 B.某病发病率 C.某病潜伏期的百分位数 D.死因构成比 E.女婴与男婴的性别比 5、计算麻疹疫苗接种后血清检查的阳转率,分母为( ). A.麻疹易感人群 B.麻疹患者数 C.麻疹疫苗接种人数 D.麻疹疫苗接种后的阳转人数 E.年均人口数 6、某病患者120人,其中男性114人,女性6人,分别占95%与5%,则结论为( ).

A.该病男性易得 B.该病女性易得 C.该病男性、女性易患率相等 D.尚不能得出结论 E.以上均不对 7、某地区某重疾病在某年的发病人数为0α,以后历年为1α,2α,…,n α,则该疾病发病人数的年平均增长速度为( )。 A.1...10+++n n ααα B. 110+??n n ααα C.n n 0 α α D.n n 0 α α -1 E. 10 -a a n 8、按目前实际应用的计算公式,婴儿死亡率属于( )。 A. 相对比(比,ratio ) B. 构成比(比例,proportion ) C. 标准化率(standardized rate ) D. 率(rate ) E 、以上都不对 9、某年某地乙肝发病人数占同年传染病人数的9.8%,这种指标是 A .集中趋势 B .时点患病率 C .发病率 D .构成比 E .相对比 10、构成比: A.反映事物发生的强度 B 、反映了某一事物内部各部分与全部构成的比重 C 、既反映A 也反映B D 、表示两个同类指标的比 E 、表示某一事物在时间顺序上的排列

利用Excel进行数据整理和描述性统计分析

实训一利用Excel进行数据整理和描述性统计分析 一、实训目的 目的有三:(1)掌握Excel中基本的数据处理方法;(2)学会使用Excel进行统计分组;(3)学会使用Excel计算各种描述性统计指标,能以此方式独立完成相关作业。 二、实训要求 1、已学习教材相关内容,理解数据整理中的统计计算问题;理解描述性统计指标中的统计计算问题;已阅读本次实训指导书,了解Excel中相关的计算工具。 2、准备好一个统计分组问题、准备好一个或几个描述性统计指标计算问题及相应数据(可用本实训所提供问题与数据)。 3、以Word文件形式(其中的统计表和统计图用Excel制作)提交实训报告(含:实训过程记录、疑难问题发现与解决记录(可选))。此条为所有实训所要求。 三、实训内容和操作步骤 (一)问题与数据 有顾客反映某家航空公司售票处售票的速度太慢。为此,航空公司收集了解100位顾客购票所花费时间的样本数据(单位:分钟),结果如下表。

航空公司认为,为一位顾客办理一次售票业务所需的时间在五分钟之内就是合理的。上面的数据是否支持航空公司的说法顾客提出的意见是否合理请你对上面的数据进行适当的分析,回答下列问题。 (1)对数据进行等距分组,整理成频数分布表,并绘制频数分布图(直方图、折线图、饼图)。 (2)根据分组后的数据,计算中位数、众数、算术平均数和标准差。 (3)分析顾客提出的意见是否合理为什么 (4)使用哪一个平均指标来分析上述问题比较合理 答:(1): 2:

从表中我们可以得到中位数为众数为1平均数为标准差为 (3):合理,虽然他的平均数是<5属于正常范围,但是依旧有将近20%的购票时间>5分钟属于超过正常范围,那就是速度太慢了。平均数不能代表一切。 所以顾客提出的理由是正确的,购票太慢的现象确实存在。 (4):平均数比较合理,它能较好的反映购票的大概时间。比较有代表性! 实训二用Excel数据分析功能进行统计整理 和计算描述性统计指标 一、实训目的 学会使用Excel数据分析功能进行统计整理和计算各种描述性统计指标,能以此方式独立完成相关作业。 二、实训要求 1、已学习教材相关内容,理解统计整理和描述性统计指标中的统计计算问题;已阅读本次实验导引,了解Excel中相关的计算工具。 2、准备好一个统计分组问题、准备好一个或几个数字特征计算问题及相应数据(可用本实验导引所提供问题与数据)。 3、以Word文件形式(其中的统计表和统计图用Excel制作)提交实训报告(含:实训过程记录、疑难问题发现与解决记录(可选))。此条为所有实训所要求。 三、实训内容和操作步骤

统计学案例分析

统计学案例实习教学大纲(课程编号:00700397) 适用年级: 是否双语:是 否

课程类别:E:集中性实践 学时学分:课程总学时2周其中实验(上机)学时学分 2 先修课程:《统计学》《统计学案例》《市场调查与分析》 开课单位:管理学院统计系 适用专业统计学 开课学期 4 二、实践环节简介 统计学案例实习课程是统计学专业的一门技术基础课,是专业选修课程,也是统计学专业的重要实践环节课。它是在学习了统计学、市场调查与分析相关理论和方法的基础上,如何将相关理论和方法运用于实际问题的解决。拉近理论与现实的距离,使统计学专业的学生更好地掌握统计综合指标的计算和应用,抽样调查的基本理论和方法,统计预测的理论、方法及应用,并提高实践动手能力和综合分析能力。 三、实践环节教学目的与基本要求 教学目的: 1.通过课程实习,应使学生掌握统计学的基本理论,统计研究的基本方法,掌握统计综合指标的计算和应用,统计指数的编制和分析,抽样调查的基本理论和方法,掌握统计预测的理论、方法及应用。 2.通过课程实习,培养学生具备对经济运行的实际内容进行具体的计算分析,培养学生用统计方法解决实际问题的能力。 3.通过具体而全面的统计案例实习来启发学生的悟性,挖掘学生的潜能,培养学生用统计理论和统计方法解决实际问题的动手能力和创新能力,提高学生的统计素质。 基本要求: 在已学习了统计学、市场调查与分析和统计学案例等课程的前提下,要求学生既能够独立完成各项实习,又能够养成团队协作的精神,共同撰写实习报告。 四、实践环节注意事项 实习方式:学生自己动手实习。 1、以小组为单位进行实习。 2、实行开放式实习教学,增加学生选择实验项目和实验时间的自主性。 注意事项:1、实习前由教师向学生讲明课程内容、进度安排、书写实验报告要求等。 2、实习4-6人为一组, 分工、协作共同完成。 3、实习报告是本实习教学的一个重要环节, 需要学生掌握的内容可以通过实习报告反映学生对其掌握程度, 让教师了解尚存在的问题。 五、实践环节主要内容与时间安排 (一) 实习项目一大学生生活费收支状况调查 知识点:调查方案设计的基本内容,设计方法 重点:各种抽样统计调查方法的特点和应用条件 难点:大学生生活费收支状况分析 实习项目二关于逃课问题的调查 知识点:调查方案设计 重点:问卷设计 难点:对逃课问题分析。 实习项目三福州大学本科生自习情况调查 知识点:调查方案设计 重点:问卷设计

描述性统计分析-Eviews

主讲人:刘莎莎 第三讲 描述性统计分析
一、 序列窗口下的描述性统计分析
知识点 1:如何以建立组对象的方式将数据导入到 Eviews 中去(第二种导入数 据的方式) 。 知识点 2:如何在序列窗口下实现简单描述性统计量和直方图,将直方图和正态 分布曲线叠加在一起,从而更直观地观察数据的分布特征。 (如何将 EViews 图形 复制粘贴到 word 中) 知识点 3:如何在序列窗口下实现描述性统计量的假设检验 知识点 4:如何实现将单序列按某一变量分类后再进行描述性统计分析(本案例 的分类变量是该天是星期几) 知识点 5:如何实现将单序列按某一变量分类后再进行假设检验 知识点 6:如何画上证综指日对数收益率的 QQ 图 知识点 7:如何估计数据的经验分布函数的参数 案例数据说明:2003 年 1 月 6 日-2009 年 6 月 26 日上证综指日对数收益率。
二、序列组窗口下的描述性统计分析
知识点 1:如何通过打开 excel 文件的方式将数据导入到 Eviews 中去。 (第三种 导入数据的方式) 。 知识点 2:如何实现多变量的描述性统计量 知识点 3:如何实现多变量描述性统计量的假设检验 案例数据说明:国家统计调查队分别在两个地区调查了 10 个家庭的收入 知识点 4:如何计算当前序列组的相关系数矩阵,协方差矩阵

主讲人:刘莎莎
案例数据说明:1983-2000 年我国粮食生产与相关投入的数据,变量包括粮食产 量(单位:万吨)、农业化肥施用量(单位:万千克)、粮食播种面积(单位: 公顷)
附注:描述性统计量的计算公式
标准差(Std.Dev.)的计算公式是:
s=
2 ( y ? y ) ∑ t t =1
T
T ?1
其中,
yt 是观测值, y 是样本平均数。
偏度(Skewness)的计算公式是:
1 T yt ? y 3 S = ∑( ) T t =1 s
其中,
yt 是观测值, y 是样本平均数,s 是样本标准差,T 是样本容量。对
称分布的偏度是零,比如正态分布。
峰度(Kurtosis)的计算公式是:
1 T yt ? y 4 S = ∑( ) T t =1 s
其中,
yt 是观测值, y 是样本平均数,s 是样本标准差,T 是样本容量。
正态分布的峰度值是 3。

统计学-案例分析(英文)

Executive summary With the development of globalization and information technology, outsourcing has gained great popularity all over the world. On the other hand, virtual works have more chances to find freelance works with the development of outsourcing. The reasons for outsourcing includes low operational and labor costs, tax breaks, to gain more global and local market share, to reduce risks, to move to higher segments of the value added chain, to serve for innovation as well as to focus to accelerate business transformation. Now the Brammer is encountered with a problem of management that the purchasing and management of spares for the daily operations, maintenance and repair of production and manufacturing equipment is often a complex, time and resource consuming issue for most organizations. The Brammer is considering whether they will outsource the management of spares. This research will focus on identifying a management problem of the Brammer and designing an appropriate business research strategy for success in business. What is more, the essay will choose a qualitative research methodology to investigate the organizational management problem of the Brammer.

统计学专业经典案例分析

案例2 美国国家健康照顾协会 美国国家健康照顾协会的主要任务是了解健康照顾人力资源的短缺情况,并为未来制定发展规划。为了掌握护理人员对所从事工作的满意程度,该协会发起了一场全国性的有关医院护理人员的调查研究。调查项目包括:工作满意度、收入、晋升机会等,填答方式采用打分制,从0~100分,分值高表示满意度高。下面是其中的一部分调查结果: 另外,按医院招募护理人员的方式,对上述资料的分组结果如下:

要求:运用描述统计方法对资料进行处理,采用的表示方法要让人能够方便地获取相应的信息,对你发现出的问题给予讨论。尤其要讨论下列内容: (1)根据给定的数据资料,指出哪些方面护理人员感到最为满意,哪些方面最不满意。有可能的话,请提出改进的措施并进行讨论。 由题目,做出如下统计分析: 列1 列2 列3

有上述分析,可知护理人员感到最为满意的是工作,收入方面最不满意。 改进措施: (2)根据变异分析的结果,为什么医护人员对工作满意度的意见差异那么大? 答:a.从列1的分析结果可知,平均数=79.8<中位数=82<众数=84,可知数据呈左偏分布,即:数据中存在极小值使得算数平均数偏向较小的一方,又因为中位数小于众数,可知数据中的较小值所占得数目较多。综上所述,列1,即工作所取得得数据中,有很多人打得分数较低,也就是说,很多人对工作都相当不满意,因此,数据的差异性较大,方差较大,医护人员对工作满意度的意见差异也很大。 b.计算各列的变异系数可得:列1变异系数=1.172125228/79.8=0.01469;列2变异系数=2.086723826/54.44=0.03833;列3变异系数=2.288884/58.36=0.03922;可知列1变异系数=0.01469>列3变异系数=0.03922>列2变异系数=0.03833;所以工作的离散系数最大,可知工作中平均数的代表性最小,说明很多分对工作并不满意,即:数据的差异性较大,方差较大,医护人员对工作满意度的意见差异也很大。 (3)从分类资料中,你能得出什么样的结论?各类医院之间,医护人员对工作满意度的差别如何,哪一类医院的情况最好? 私立医院 退伍军人

数据的描述性统计分析

统计分析往往是从了解数据的基本特征开始的。描述数据分布特征的统计量可分为两类:一类表示数量的中心位置,另一类表示数量的变异程度(或称离散程度)。两者相互补充,共同反映数据的全貌。 这些内容可以通过SPSS中的“Descriptive Statistics”菜单中的过程来完成。 1 频数分析 (Descriptive Statistics - Frequencies) 频数分布分析主要通过频数分布表、条形图和直方图,以及集中趋势和离散趋势的各 种统计量来描述数据的分布特征。 下面我们通过例子来学习单变量频数分析操作。 1) 输入分析数据 在数据编辑器窗口打开“data1-2.sav”数据文件。 2)调用分析过程 在主菜单栏单击“Analyze”,在出现的下拉菜单里移动鼠标至“Descriptive Statistics”项上,在出现的次菜单里单击“Frequencies”项,打开如图3-4所示的对话框。 图3-4 “Frequencies” 对话框 3)设置分析变量 从左则的源变量框里选择一个和多个变量进入“Variable(s):”框里。在这里我们选“三化 螟蚁螟[虫口数]”变量进入“Variable(s):”框。 4)输出频数分布表

Display frequency tables,选中显示。 5)设置输出的统计量 单击“Statistics”按钮,打开图3-5所示的对话框,该对话框用于选择统计量: 图3-5 “Statistics”对话框 ①选择百分位显示“Percentiles Values”栏: Quartiles:四分位数,显示25%、50%和75%的百分位数。 Cut points for 10 equal groups:将数据平分为输入的10个等份。 Percentile(s)::用户自定义百分位数,输入值0—100之间。选中此项后,可以利用“Add”、“Change”和 “Remove”按钮设置多个百分位数。 ②选择变异程度的统计量“Dispersion”:(离散趋势) Std.deviation标准差 Minimum 最小值 Variance 方差 Maximum 最大值 Range 极差 S.E.mean均值标准误 ③选择表示数据中心位置的统计量“Central Tendency”:(集中趋势) Mean 均值 Median 中位数 Mode 众数 Sum 算术和

统计学案例分析

1、中国的轿车生产是否与GDP、城镇居民人均可支配收入、城镇 居民家庭恩格尔系数、私人载客汽车拥有量、公路里程等都 有密切关系?如果有关系,它们之间是种什么关系?关系强 度如何? (1)分析轿车生产量与私人载客汽车拥有量之间的关系: 首先,求的因变量轿车生产量y和自变量私人载客汽车拥有量x1的相关系数r=0.992018,说明两者间存在一定的线性相关关系且正相关程度很强。 然后以轿车生产量为因变量y,私人载客汽车拥有量x1为自变量进行一元线性回归分析,结果如下: ①由回归统计中的R=0.984101看出,所建立的回归模型对样本观测值的拟合程度很好; ②估计出的样本回归函数为:?=1.775687+0.206783 x1,说明私人载客汽车拥有量每增加1万辆,轿车生产量增加2067.83辆; ③由上表中a和β?的p值分别是0.709481543和6.60805E-15,显然a的p值大于显著性水 平α=0.05,不能拒绝原假设α=0,而β?的p值远小于显著性水平α=0.05,拒绝原假设β=0,说明私人载客汽车拥有量对轿车生产量有显著影响。

(2)分析轿车生产量与城镇居民家庭恩格尔系数之间的关系: 首先,求的因变量轿车生产量y和自变量城镇居民家庭恩格尔系数x2的相关系数r=-0.77499,说明两者间存在一定的线性相关关系但负相关程度一般。 然后以轿车生产量为因变量y,城镇居民家庭恩格尔系数x2为自变量进行一元线性回归分析,结果如下: 由回归统计中的R=0.600608看出,所建立的回归模型对样本观测值的拟合程度一般,综合其相关系数值可知此二者关系不太符合所建立的线性模型,说明二者间没有密切的线性相关关系。 (3)分析轿车生产量与公路里程之间的关系: 首先,求的因变量轿车生产量y和自变量公路里程x3的相关系数r=0.941214,说明两者间存在一定的线性相关关系且正相关程度较强。 然后以轿车生产量为因变量y,公路里程x3为自变量进行一元线性回归分析,结果如下:

统计案例分析及典型例题

统计案例分析及典型例题 §11.1 抽样方法 1.为了了解所加工的一批零件的长度,抽取其中200个零件并测量了其长度,在这个问题中,总体的一个样本是 . 答案 200个零件的长度 2.某城区有农民、工人、知识分子家庭共计2 004户,其中农民家庭1 600户,工人家庭303户,现要从中抽取容量为40的样本,则在整个抽样过程中,可以用到下列抽样方法:①简单随机抽样,②系统抽样,③分层抽样中的 . 答案 ①②③ 3.某企业共有职工150人,其中高级职称15人,中级职称45人,初级职称90人.现采用分层抽样抽取容量为30的样本,则抽取的各职称的人数分别为 . 答案 3,9,18 4.某工厂生产A 、B 、C 三种不同型号的产品,其相应产品数量之比为2∶3∶5,现用分层抽样方法抽出一个容量为n 的样本,样本中A 型号产品有16件,那么此样本的容量n = . 答案 80 例1 某大学为了支援我国西部教育事业,决定从2007应届毕业生报名的18名志愿者中,选取6人组成志愿小组.请 用抽签法和随机数表法设计抽样方案. 解 抽签法: 第一步:将18名志愿者编号,编号为1,2,3, (18) 第二步:将18个号码分别写在18张外形完全相同的纸条上,并揉成团,制成号签; 第三步:将18个号签放入一个不透明的盒子里,充分搅匀; 第四步:从盒子中逐个抽取6个号签,并记录上面的编号; 第五步:所得号码对应的志愿者,就是志愿小组的成员 . 基础自测

随机数表法: 第一步:将18名志愿者编号,编号为01,02,03, (18) 第二步:在随机数表中任选一数作为开始,按任意方向读数,比如第8行第29列的数7开始,向右读; 第三步:从数7开始,向右读,每次取两位,凡不在01—18中的数,或已读过的数,都跳过去不作记录,依次可得到12,07,15,13,02,09. 第四步:找出以上号码对应的志愿者,就是志愿小组的成员. 例2 某工厂有1 003名工人,从中抽取10人参加体检,试用系统抽样进行具体实施. 解 (1)将每个人随机编一个号由0001至1003. (2)利用随机数法找到3个号将这3名工人剔除. (3)将剩余的1 000名工人重新随机编号由0001至1000. (4)分段,取间隔k = 10 000 1=100将总体均分为10段,每段含100个工人. (5)从第一段即为0001号到0100号中随机抽取一个号l . (6)按编号将l ,100+l ,200+l ,…,900+l 共10个号码选出,这10个号码所对应的工人组成样本. 例3 (14分)某一个地区共有5个乡镇,人口3万人,其中人口比例为3∶2∶5∶2∶3,从3万人中抽取一个300人 的样本,分析某种疾病的发病率,已知这种疾病与不同的地理位置及水土有关,问应采取什么样的方法?并写出具体过程. 解 应采取分层抽样的方法. 3分 过程如下: (1)将3万人分为五层,其中一个乡镇为一层. 5分 (2)按照样本容量的比例随机抽取各乡镇应抽取的样本. 300×153=60(人);300× 15 2 =40(人); 300×155=100(人);300×15 2=40(人); 300× 15 3=60(人), 10分 因此各乡镇抽取人数分别为60人,40人,100人,40人,60人. 12分 (3)将300人组到一起即得到一个样本. 14分 练习:

医学统计学案例分析-(1)

案例分析—四格表确切概率法 【例1-5】为比较中西药治疗急性心肌梗塞的疗效,某医师将27例急性心肌梗塞患者随机分成两组,分别给予中药和西药治疗,结果见表1-4。经检验,得连续性校正χ2=3.134,P>0.05,差异无统计学意义,故认为中西药治 疗急性心肌梗塞的疗效基本相同。 表1-4 两种药物治疗急性心肌梗塞的疗效比较 药物有效无效合计有效率(%) 中药12(9.33)2(4.67)1485.7 西药 6(8.67)7(4.33)1346.2 合计1892766.7【问题1-5】 (1)这是什么资料? (2)该资料属于何种设计方案? (3)该医师统计方法是否正确?为什么? 【分析】 (1) 该资料是按中西药的治疗结果(有效、无效)分类的计数资料。 (2) 27例患者随机分配到中药组和西药组,属于完全随机设计方案。 (3) 患者总例数n=27<40,该医师用χ2检验是不正确的。当n<40或T<1时,不宜计算χ2值,需采用四格表确切概率法(exact probabilities in 2×2 table)直接计算概率 案例分析-卡方检验(一) 【例1-1】某医师为比较中药和西药治疗胃炎的疗效,随机抽取140例胃炎患者分成中药组和西药组,结果中药组治疗80例,有效64例,西药组治疗60例,有效35例。该医师采用成组t检验(有效=1,无效=0)进行假设检验,结果t=2.848,P=0.005,差异有统计学意义检验(有效=1,无效=0)进行进行假设检验,结果t=2.848,P=0.005,差异有统计学意义,故认为中西药治疗 胃炎的疗效有差别,中药疗效高于西药。

【问题1-1】 (1)这是什么资料?(2)该资料属于何种设计方案? (3)该医师统计方法是否正确?为什么?(4)该资料应该用何种统计方法?【分析】(1) 该资料是按中西药疗效(有效、无效)分类的二分类资料,即计数资料。(2) 随机抽取140例胃炎患者分成西药组和中药组,属于完全随机设计方案。(3) 该医师统计方法不正确。因为成组t检验用于推断两个总体均数有 无差别,适用于正态或近似正态分布的计量资料,不能用于计数资料的比较。(4) 该资料的目的是通过比较两样本率来推断它们分别代表的两个总体率有无差别,应用四格表资料的 X2检验(chi-square test)。 【例1-2】 2003年某医院用中药和西药治疗非典病人40人,结果见表1-1。 表1-1 中药和西药治疗非典病人有效率的比较 药物有效无效合计有效率(%) 中药西药14(11.2) 2 (4.8) 14(16.8) 10 (7.2) 28 12 50.0 16.7 合计16 24 40 40.0 某医师认为这是完全随机设计的2组二分类资料,可用四格表的检验。其 步骤如下: 1.建立检验假设,确定检验水准 H0:两药的有效率相等,即π 1=π2 H1:两药的有效率不等,即 π1≠π2 2.计算检验统计量值 (1) 计算理论频数根据公式计算理论频数,填入表7-2的括号内。 (2) 计算χ2值 具体计算略。

描述性统计分析

描述性统计分析 作者:清华大学中国企业研究中心阅读次数:24704次发布日期:2005-07-04 在数据分析的时候,一般首先要对数据进行描述性统计分析(Descriptive Analysis),以发现其内在的规律,再选择进一步分析的方法。描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形。 (1)数据的频数分析:在数据的预处理部分,我们曾经提到利用频数分析和交叉频数分析来检验异常值。此外,频数分析也可以发现一些统计规律。比如说,收入低的被调查者用户满意度比收入高的被调查者高,或者女性的用户满意度比男性低等。不过这些规律只是表面的特征,在后面的分析中还要经过检验。 (2)数据的集中趋势分析:数据的集中趋势分析是用来反映数据的一般水平,常用的指标有平均值、中位数和众数等。各指标的具体意义如下: 平均值:是衡量数据的中心位置的重要指标,反映了一些数据必然性的特点,包括算术平均值、加权算术平均值、调和平均值和几何平均值。 中位数:是另外一种反映数据的中心位置的指标,其确定方法是将所有数据以由小到大的顺序排列,位于中央的数据值就是中位数。 众数:是指在数据中发生频率最高的数据值。 如果各个数据之间的差异程度较小,用平均值就有较好的代表性;而如果数据之

间的差异程度较大,特别是有个别的极端值的情况,用中位数或众数有较好的代表性。

(3)数据的离散程度分析:数据的离散程度分析主要是用来反映数据之间的差异程度,常用的指标有方差和标准差。方差是标准差的平方,根据不同的数据类型有不同的计算方法。 (4)数据的分布:在统计分析中,通常要假设样本的分布属于正态分布,因此需要用偏度和峰度两个指标来检查样本是否符合正态分布。偏度衡量的是样本分布的偏斜方向和程度;而峰度衡量的是样本分布曲线的尖峰程度。一般情况下,如果样本的偏度接近于0,而峰度接近于3,就可以判断总体的分布接近于正态分布。 (5)绘制统计图:用图形的形式来表达数据,比用文字表达更清晰、更简明。在SPSS软件里,可以很容易的绘制各个变量的统计图形,包括条形图、饼图和折线图等。 示例SIM手机描述性统计分析 为简化起见,我们只分析SIM手机用户满意调查中的两个变量:“总体感知质量”和“总体满意度”变量。 (1)数据的频数分析 用SPSS软件的频数分析可以很容易地画出两个变量的频数图:

相关主题