搜档网
当前位置:搜档网 › stata语法说明第一讲

stata语法说明第一讲

stata语法说明第一讲
stata语法说明第一讲

第一讲 Stata操作入门

第一节概况

Stata最初由美国计算机资源中心(Computer Resource Center)研制,现在为Stata公司的产品,其最新版本为7.0版。它操作灵活、简单、易学易用,是一个非常有特色的统计分析软件,现在已越来越受到人们的重视和欢迎,并且和SAS、SPSS一起,被称为新的三大权威统计软件。

Stata最为突出的特点是短小精悍、功能强大,其最新的7.0版整个系统只有10M左右,但已经包含了全部的统计分析、数据管理和绘图等功能,尤其是他的统计分析功能极为全面,比起1G以上大小的SAS系统也毫不逊色。另外,由于Stata在分析时是将数据全部读入内存,在计算全部完成后才和磁盘交换数据,因此运算速度极快。

由于Stata的用户群始终定位于专业统计分析人员,因此他的操作方式也别具一格,在Windows席卷天下的时代,他一直坚持使用命令行/程序操作方式,拒不推出菜单操作系统。但是,Stata的命令语句极为简洁明快,而且在统计分析命令的设置上又非常有条理,它将相同类型的统计模型均归在同一个命令族下,而不同命令族又可以使用相同功能的选项,这使得用户学习时极易上手。更为令人叹服的是,Stata语句在简洁的同时又拥有着极高的灵活性,用户可以充分发挥自己的聪明才智,熟练应用各种技巧,真正做到随心所欲。

除了操作方式简洁外,Stata的用户接口在其他方面也做得非常简洁,数据格式简单,分析结果输出简洁明快,易于阅读,这一切都使

得Stata成为非常适合于进行统计教学的统计软件。

Stata的另一个特点是他的许多高级统计模块均是编程人员用其宏语言写成的程序文件(ADO文件),这些文件可以自行修改、添加和下载。用户可随时到Stata网站寻找并下载最新的升级文件。事实上,Stata的这一特点使得他始终处于统计分析方法发展的最前沿,用户几乎总是能很快找到最新统计算法的Stata程序版本,而这也使得Stata自身成了几大统计软件中升级最多、最频繁的一个。

由于以上特点,Stata已经在科研、教育领域得到了广泛应用,WHO的研究人员现在也把Stata作为主要的统计分析工作软件。

第二节Stata操作入门

一、Stata的界面

图1即为Stata 7.0启动后的界面,除了Windows版本的软件都有的菜单栏、工具栏,状态栏等外,Stata的界面主要是由四个窗口构成,分述如下:

1.结果窗口:位于界面右上部,软件运行中的所有信息,如所执行的命令、执行结果和出错信息等均在这里列出。窗口中会使用不同的颜色区分不同的文本,如白色表示命令,红色表示错误信息。

2.命令窗口:位于结果窗口下方,相当于DOS软件中的命令行,此处用于键入需要执行的命令,回车后即开始执行,相应的结果则会在结果窗口中显示出来。

3.命令回顾窗口:即review窗口,位于界面左上方,所有执行过的命令会依次在该窗口中列出,单击后命令即被自动拷贝到命令窗

口中;如果需要重复执行,用鼠标双击相应的命令即可。

4.变量名窗口:位于界面左下方,列出当前数据及中的所有变量名称,。

除以上四个默认打开的窗口外,在Stata 中还有数据编辑窗口、程序文件编辑窗口、帮助窗口、绘图窗口、Log 窗口等,如果需要使用,可以用Window 或Help 菜单将其打开。

7.0启动后的界面

Stata 为用户提供了简捷,但是非常完善的数据接口,熟悉它的用法是使用Stata 的第一步,在Stata 中读入数据可以有三种方式:直接从键盘输入、打开已有数据文件和拷贝、粘贴方式交互数据。

1)从键盘输入数据

在Stata 中可以使用命令行方式直接建立数据集,首先使用input 命令制定相应的变量名称,然后一次录入数据,最后使用end 语句表明数据录入结束。

例1 在某实验中得到如下数据,请在Stata 中建立数据集。

观测数据

X 1 3 5 7 9

Y 2 4 6 8 10

解:此处需要建立两个变量X、Y,分别录入相应数值,Stata中的操作如下,其中划线部分为操作者输入部分。

. drop _all

. input x y

x y

1. 1 2

2. 3 4

3. 5 6

4. 7 8

5. 9 10

6. end

2)用stata的数据编辑工具

①进入数据编辑器

进入stata界面,在命令栏键入edit或在stata的window下

拉菜单中单击(注意:是浏览

stata数据编辑器。(stata

图2

②数据编辑

stata 数据编辑器界面:此时进入了数据全屏幕编辑状态。

图3

在第一列输入数据后,Stata第一列自动命名为var1;在第二列输入数据后,第二列自动命名为var2……依次类推。在输入数据后,双击纵格顶端的变量名栏(如:Var1或Var2处),可以更改变量名,并可以在label栏中注释变量名的含义,点击OK确认(如图4所示)。仍沿用上例,双击观察值所在列顶端的变量名栏,更改变量名为x,并在label栏中注明“7岁男童身高(cm)”。

图4

数据输入完毕后,单击

preserve键确认所输数据,按关闭键

即可退出编辑器。

图5

数据输入完毕后,单击preserve键确认所输数据,按关闭键

即可退出编辑器。

3)拷贝、粘贴方式交互数据

Stata的数据编辑窗口是一个简单的电子表格,可以使用拷贝、粘贴方式直接和EXCEL等软件交互数据,在数据量不大时,这种方式操作极为方便。

例2 现在EXCEL中已录入了三个变量,共五条记录,格式见下图,请将数据读入Stata。

解:首先将EXCEL中的A1~C6全部18个单元格选中,选择菜单编辑?复制,将数据拷贝到剪贴板上;然后切换到Stata,选择菜单Window?Data Editor,打开数据编辑窗口;再选择Edit?Paste,相应的数据就会被直接粘贴如数据编辑窗口中,并且变量名、记录数、变量格式等均会被自动正确设置,见图6和图7。

图6 在EXCEL中的数据格式图7 粘贴入Stata后的数据格式4)、打开已有的数据文件

Stata能够直接打开的数据文件只能是自身专用格式或者以符号分隔的纯文本格式,后者第一行可以是变量名,分述如下:1.点击图标,然后选择路径和文件名,可以打开Stata专用格式的数据文件,并且扩展名为.dta。

2.打开Dta数据文件:该格式文件是Stata的专用格式数据文件,也使用use命令即可打开,例如要打开数据文件“C:\data1.dta”,则命令为:

. use c:\data1

即扩展名可以省略,如果Stata中已经修改或者建立了数据集,则需要使用clear选项清除原有数据,命令为:

. use c:\data1 , clear

3.读入文本格式数据:需要使用insheet命令实现,例如需要读入已建立好的文本格式数据文件“C:\data1.txt”,则命令为:. insheet using c:\data1.txt

该命令会自动识别第一行是否为变量名,以及变量列间的分隔符是tab、逗号还是其他字符。如果Stata中已经修改或者建立了数据集,则需要使用clear选项清除原有数据,命令为:

. insheet using c:\data1.txt , clear

5)数据文件的保存

为了方便以后重复使用,输入Stata的数据应存盘。Stata实际上只能将数据存为自身专用的数据格式或者纯文本格式,分述如下:

1.点击图标,然后选择路径和文件名,点击保存。

2.存为dta格式:可以直接使用文件菜单,也可以使用save 命令操作,如欲将上面建立的数据文件存入“C:\”中,文件名为Data1.dta,则命令为:

. save c:\data1

file c:\data1.dta saved

该指令将在C盘根目录建立一个名为“data1.dta”的Stata数据文件,后缀dta可以在命令中省略,会被自动添加。该文件只能在Stata中用use命令打开。如所指定的文件已经存在,则该命令将给出如下信息:file c:\data1.dta already exists,告诉用户在该目标盘及子目录中已有相同的文件名存在。如欲覆盖已有文件,则加选择项replace。命令及结果如下:

. save c:\data1.dta , replace

file c:\data1.dta saved

2.存为文本格式:需要使用outsheet命令实现,该命令的基本格式如下。

outsheet [变量名列表] using 文件名[, nonames replace ]

其中变量名列表如果省略,则将全部变量存入指定文件。

如欲将上面建立的数据文件存入文本文件“C:\data1.txt”中,则命令为:

. outsheet using c:\data1.txt

此时建立的文件data1.txt第一行为变量名,第2~6行为变量值。变量列间用Tab键分隔。如果不希望在第一行存储变量名,则可以使用nonames选项。如果文件已经存在,则需要使用replace选项。

stata上机实验操作

第六章第二题: 1. 建立完成的教育年数(ED )对到最近大学的距离(Dist )的回归: . reg ed dist, robust 斜率估计值是:-0.073 2. reg ed dist bytest female black hispanic incomehi ownhome dadcoll cue80 stwmfg80,robust Dist 对ED 的效应估计是:-0.032 3. 系数下降50%,存在很大差异,(1)中回归存在遗漏变量偏差 4. di e(r2_a)(可看到调整后的R2) 第一问中=0.0074 调整的2R =0.00718796 _cons 13.95586 .0378112 369.09 0.000 13.88172 14.02999 dist -.0733727 .0134334 -5.46 0.000 -.0997101 -.0470353 ed Coef. Std. Err. t P>|t| [95% Conf. Interval] Robust Root MSE = 1.8074 R-squared = 0.0074 Prob > F = 0.0000 F( 1, 3794) = 29.83 Linear regression Number of obs = 3796 . reg ed dist , robust 2R

第二问中=0.2788 2R = 0.27693235 可以得到第二问中的拟合效果要优于第一问。 第二问中相似的原因:因为n 很大。 5. Dadcoll 父亲有没有念过大学: 系数为正(0.6961324)衡量父亲念过大学的学生接受的教育年数平均比其父亲没有年过大学的学生多。 .0232052 -.0517777 1)原因:这些参数在一定程度上构成了上大学的机会成本。 2)它们的系数估计值的符号应该如此。当Stwmfg80增加时,放弃的工资增加,所以大学入学率降低了;因而Stwmfg80的系数对应为负。 而当Cue80增加时,人们会发现找工作很困难,这降低上大学的机会成本,所以平均的大学入学率就会增加;因而Cue80的系数对应为正。 7.带入计算即可(14.75) 8.同7.(14.69) 第七章第二题 1. . reg course_eval beauty,robust 95%置信区间见上表。 2. 2R _cons 3.998272 .0253493 157.73 0.000 3.948458 4.048087 beauty .1330014 .0323189 4.12 0.000 .0694908 .1965121 course_eval Coef. Std. Err. t P>|t| [95% Conf. Interval] Robust Root MSE = .54545 R-squared = 0.0357 Prob > F = 0.0000 F( 1, 461) = 16.94 Linear regression Number of obs = 463

Stata上机实验笔记

Stata上机实验 Stata 统计软件包是目前世界上最著名的统计软件之一,国外将Stata与SAS、SPSS 一起被并称为三大权威软件。它同时具有数据管理软件、统计分析软件、绘图软件、矩阵计算软件和程序语言的特点,几乎可以完成全部复杂的统计分析工作。 Stata有什么优势? 1。Stata 的命令语句极为简洁明快,易学易记。 2。强大的帮助信息。 本地帮助 Help 命令名 在线帮助Findit 命令名 3。始终处于计量经济学和统计学的最前沿。许多Stata 程序员会针对计量经济学发展编写一些最新的程序(ADO 文件), Stata提供了严谨、简练而灵活的程序语句,用户可以编写自己的命令和函数,同时可随时到Stata 网站寻找并下载最新的升级文件。下载后可以直接使用,也可以自行修改、添加功能。(例如当前流行的面板单位根和面板门限数据,均可以安装下载使用) 不同版本对样本容量、变量个数、矩阵阶数、宏的字符长度等有着不同的限制。以SE版为例,其最大变量个数为32767,最大字符长度为244字节,最大矩阵阶数为11000(即11000 11000)。Stata默认值为:最大变量个数为5000,最大矩阵阶数为400,最大内存为10兆。如果用户需要更多的内存或者更多的变量,可以在命令栏输入如下命令进行扩展。 set maxvar 5000 <最大变量个数5000个。> set memory 50m <占内存50兆。> 最重要的有三类文件 1。文件名.dta 数据文件 2。文件名.do 命令文件 3。文件名.ado 程序文件 如果不加改变,安装时Stata会将系统程序安装到: C:\Program file\stata10 中。 将所用系统自带的一些系统数据、应用程序、帮助文件安装到 C:\Program file\stata10\ado\base 中 将所有升级程序安装到: C:\Program file\stata10\ado\update 中 1。所有的系统自带数据可以利用sysuse命令打开。 2。Use命令只能打开 C:\data 或者 D:\data 中的数据。 3。如果需要打开其他文件夹的数据,必须改变目录(例如,将自己的数据放入D:\abc) cd "D:\abc” 或者直接 file------open 特别注意:1。Stata的命令区分大小写。

计量经济学stata上机命令整理

计量经济学上机命令整理 实验一 edit 打开数据编辑器 browse 打开数据浏览器 rename 对变量重新命名 label save describe 对数据集简要描述 sort 排序例如:list in -10/-1 list 显示变量的数值 Generate 缩小:gen 生成新的变量后面可以接if条件句 Replace 替换append 覆盖 Summarize 缩写:su 总结后面可以接if条件句 实验二 twoway (scatter y x)(connected ey_x x) 在该散点图上,做出条件均值点 sc y x||lfit y x 画出线图和散点图 Reg y x 做出回归 Rename ** y **指原变量名用于修改变量名字 graph twoway scatter y x 画出y x 的二维散点图 Line y x 做出y x 的线条图 egen Ey_x=mean(y),by(x) 求在同一x水平下,求y的均值 实验三 Regress y x1 x2 ........做多元回归 Precict e,re 预测方差 Sort e 按照方差排序 Cor y x 测试y与x的相关程度 Pwcorr y x 也是测试y与x的相关程度 Set obs 90 (90为任意一个数字),增加一个或者多个样本值 Replace x=980 in 90 为第90个样本值赋值(980为任意一个数字) Predict yhat 预测y的估计值 Display invttail(n,p) n为自由度;p为概率(一般为0.025)。用来求t分布的t 值 Display ttail(n,t)知道t值求T

相关主题