STATA 十八讲1入门
STATA 十八讲
中国人民大学 陈传波
chrisccb@126.com
1
STATA 十八讲1入门
目录
STATA十八讲 ....................................................................................................................................1
目录 ..................................................................................................................................................2
前 言 ..............................................................................................................................................6
1 STATA入门.....................................................................................................................................9
1.1 安装.....................................................................................................................................9
1.2 启用和退出.........................................................................................................................9
1.3 打开和查看数据...............................................................................................................11
1.4 寻求帮助与网络资源.......................................................................................................12
1.5 命令示例...........................................................................................................................13
1.6 几个环境设置...................................................................................................................14
1.7 复习和练习.......................................................................................................................15
1.8 附录...................................................................................................................................16
2 命令语句 .....................................................................................................................................18
2.1 掌握命令语句的格式.......................................................................................................18
2.2 命令command...................................................................................................................18
2.3 变量varlist.........................................................................................................................18
2.4 分类操作by varlist...........................................................................................................19
2.5 赋值及运算=exp..............................................................................................................19
2.6 条件表达式if exp ............................................................................................................20
2.7 范围筛选in range.............................................................................................................20
2.8 加权weight.......................................................................................................................20
2.9 其他可选项,options.........................................................................................................21
2.10 复习与练习....................................................................................................................22
3 数据 .............................................................................................................................................23
3.1 打开示例数据和网络数据:use ....................................................................................23
3.2 数据类型...........................................................................................................................24
3.3 数据类型转化...................................................................................................................27
3.4 数据显示格式:format.......................................................................................................29
3.5 在STATA中直接录入数据:input..................................................................................30
3.6 导入其他格式数据:insheet ...........................................................................................33
3.7 标签数据:label..................................................................................................................35
3.8 复习与练习......................................................................................................................38
4 数据整理 ....................................................................................................................................39
4.1 拆分与连接数据文件要掌握的命令...............................................................................39
4.2 案例:拆分与连接数据......................................................................................................39
4.3 案例:连接数据文件.......................................................................................................42
4.4 数据重整...........................................................................................................................42
4.5 案例:数据转置..................................................................................................................44
4.6 字符运算........................................................................................................................45
4.7 复习与作业.......................................................................................................................45
5 函数与运算符 .............................................................................................................................47
5.1 运算符exp.........................................................................................................................47
中国人民大学 陈传波
chrisccb@126.com
2
STATA 十八讲1入门
5.2 函数概览function .............................................................................................................49
5.3 数学函数math functions...................................................................................................50
5.4 字符函数string functions..................................................................................................53
5.5 分类操作by......................................................................................................................54
6 程序 ............................................................................................................................................57
6.1 标准的程序文件格式......................................................................................................57
6.2 创造自己的命令:与STATA互致问候 ...........................................................................57
6.3 暂元Macros: local/global.................................................................................................60
6.4 自带命令参数..................................................................................................................62
6.5 scalar标量 .........................................................................................................................63
6.6 临时变量和临时数据文件:tempvar和tempfile ...............................................................64
6.7 基尼系数命令的创建案例 (选学内容)....................................................................65
7 流程语句 ....................................................................................................................................70
7.1 循环语句:while.................................................................................................................70
7.3 循环语句:forvalues...........................................................................................................71
7.3 循环语句:foreach..............................................................................................................72
7.4 嵌套循环...........................................................................................................................74
7.5 条件语句...........................................................................................................................75
7.6 复习和练习.......................................................................................................................77
8 矩阵 ............................................................................................................................................78
8.1 生成矩阵...........................................................................................................................78
8.2 矩阵四则运算...................................................................................................................79
8.3 矩阵函数...........................................................................................................................81
8.4 随机向量与矩阵代数(选学内容)...............................................错误!未定义书签。
9 绘图 .............................................................................................................................................85
9.1 绘图命令...........................................................................................................................85
9.2 几种常用的图...................................................................................................................90
9.3 同时做多个图by(varname) ..............................................................................................97
9.4 模板及图文件处理...........................................................................................................99
9.5 附录.................................................................................................................................100
10 随机模拟.................................................................................................................................101
10.1 伪随机数.......................................................................................................................101
10.2 简单模拟.......................................................................................................................102
10.3 复杂模拟.......................................................................................................................104
10.4 多阶段模拟...................................................................................................................105
10.5 商店案例.......................................................................................................................107
10.6 练习...............................................................................................................................109
10.7 附录...............................................................................................................................110
11 分布函数................................................................................................................................116
11.1 二项分布.......................................................................................................................116
11.2 标准正态分布函数.......................................................................................................116
11.3 正态分布函数及其反函数...........................................................................................117
11.4 服从正态分布的随机数...............................................................................................118
11.5 正态分布密度函数.......................................................................................................119
中国人民大学 陈传波
chrisccb@126.com
3
STATA 十八讲1入门
11.6 分位数...........................................................................................................................120
11.7 卡方分布.......................................................................................................................121
11.8 t分布的分位数..............................................................................................................123
11.9 F分布 ............................................................................................................................123
12 抽样分布.................................................................................................................................126
12.1 经验分布.......................................................................................................................126
12.2 均值的抽样分布:正态总体的小样本抽样分布.......................................................127
12.3 中心极限定理:非正态总体大样本下均值的抽样分布 ...........................................127
12.4 卡方分布与样本标准差的抽样分布...........................................................................129
12.5 构造F分布 ....................................................................................................................130
12.6 t分布:未知总体方差时的抽样分布..........................................................................131
12.7 多元正态分布...............................................................................................................132
13 参数估计与假设检验 ............................................................................................................134
13.1 极大似然估计的原理...................................................................................................134
13.2 正态总体均值和方差的极大似然估计.......................................................................134
13.3 最小二乘估计OLS原理 ...............................................................................................135
13.4 矩估计MM原理............................................................................................................136
13.5 区间估计原理...............................................................................................................136
13.6 假设检验原理...............................................................................................................137
14 简单回归原理 ........................................................................................................................139
14.1 回归分析原理...............................................................................................................139
14.2 模拟实验.......................................................................................................................143
14.3 回归报告结果中各项的手工计算.................................................错误!未定义书签。
14.3 线性模型的最大似然估计.............................................................错误!未定义书签。
15 异方差模拟.............................................................................................................................145
15.1 条件分布图示...............................................................................................................145
15.2 异方差的后果...............................................................................................................146
15.3 图形检验与怀特检验..................................................................................................148
15.4 检验的功效(选读内容) ...............................................................................................149
15.5 估计方法:WLS与GLS..............................................................................................152
15.6 广义最小二乘估计与FGLS........................................................................................153
Equation Chapter 1 Section 116 随机过程模拟 ..........................................................................155
16.1 时间数据函数...............................................................................................................155
16.2 模拟白噪声及检验白噪声..........................................................................................156
16.3 模拟自回归过程AR并检验稳定性 ............................................................................158
16.4 模拟移动平均过程MA ...............................................................................................161
16.5 序列相关性检验..........................................................................................................165
16.6 单位根检验...................................................................................................................166
16.7 平滑分析......................................................................................................................169
17 计量经济学基本理论模拟 .....................................................................................................170
17.1 经典假设满足时OLS估计量的小样本性质 ..............................................................170
17.2 条件误差服从正态分布的假设不成立时OLS的小样本性质...................................171
17.3 条件误差服从正态分布假设不成立时OLS的大样本性质 ......................................171
17.4 第一假设不成立时......................................................................................................173
中国人民大学 陈传波
chrisccb@126.com
4
STATA 十八讲1入门
17.5 第二假设不成立时......................................................................................................174
17.6 第三假设不成立时......................................................................................................175
17.7 第四假设不成立时......................................................................................................175
17.8 第五假设不成立时(略)..........................................................................................175
18 计量经济学综合案例 .............................................................................................................176
18.1 简单回归分析..............................................................................................................176
18.2 多元回归分析..............................................................................................................178
18.3 非线性回归分析..........................................................................................................179
18.4 回归模型的有效性......................................................................................................181
18.5 实验与自然实验..........................................................................................................184
截取与断尾.....................................................................................................错误!未定义书签。
参考文献.......................................................................................................................................186
中国人民大学 陈传波
chrisccb@126.com
5
STATA 十八讲1入门
前 言
Stata 统计软件包是目前世界上最著名的统计软件之一,与 SAS、SPSS 一起
被并称为三大权威软件。它广泛应用于经济、教育、人口、政治学、社会学、医
学、药学、工矿、农林等学科领域,同时具有数据管理软件、统计分析软件、绘
图软件、矩阵计算软件和程序语言的特点,几乎可以完成全部复杂的统计分析工
作。功能如此强大的软件却只有 12M,称得上精悍,而且操作简单、使用灵活、
易学易用、运行速度极快,在许多方面别具一格,始终处于统计分析方法发展的
最前沿。
然而,与目前国内有众多的 SPSS 和 SAS 中文教材不同,中文版的 STATA
教材目前极少。由于 STATA 的用户越来越多,广大用户希望得到一本优秀的中
文教程的呼声也越来越高。英文版的教材虽然有一些,但是对于大多数读者来说,
一本好的中文教程对于更快更好掌握和精通 STATA 是必不可少的。 尤其是广大
的青年学子,对于学习统计软件始终有极大的兴趣,这也与计算机的普及和数据
越来越容易获取的趋势相一致。
今天,我们面临的是海量的数据和多种多样的模型、以及越来越傻瓜式的统
计分析软件,在这样的新环境下,我们目前缺乏的已经不是实证分析而是好的实
证分析,好的实证分析无疑需要对数据来龙去脉的把握,然而许多人对如何高效
地把原始数据整理成满足自己分析所需的数据缺乏经验。另一方面,好的实证研
究无疑也需要扎实的理论根基,然而许多人往往对抽象的数理统计和计量理论望
而生畏,敬而远之,一个主要的原因在于随机世界的难以把握性和缺乏直观性。
从这个意义上看,数据分析之前的数据处理工作和对分析结果的理解和评估工作
成了当前的弱项。从不知如何使用和不敢使用计量模型到现如今的滥用和误用模
型,我们深感强调正确和恰当使用模型的重要性。
从本质上讲,计量模型是满足假定条件的随机变量的联合分布,这意味着深
刻理解分布很重要,深刻理解假定条件也很重要。当假定条件不成立时,估计结
果一般而言是没有意义的并容易产生误导。可是如何让大家相信这种滥用和误用
计量模型所导致的偏误呢?
由于在社会科学中,被广泛认同的数理模型很少,讨论估计量是否一致或有
偏误的最好办法是假设我们已知某个理论公式及其相应参数,然后按照这个公式
通过蒙特卡洛方法生成假设数据,再来看在什么条件下用什么方法可以获得一致
的或渐近正态的估计结果,这种方法已被国外的统计和计量教材大量采用。
本书正是在这两个方面突出了自己的特色。作者 9 年来潜心钻研 STATA,
利用 STATA 处理过农村住户数据、人口普查数据(部分)等大量数据,积累了
丰富的数据处理经验。本书的前 9 讲集中介绍数据处理的知识和技巧,后 9 讲通
过蒙特卡洛模拟帮助读者从直观上理解数理统计和计量的基本理论,并掌握相应
的操作技巧。
该书在讲述操作的时候,首先给出一个简单任务,这个任务的目标和结果是
容易被预期和验证的,但是通过其他方式完成目标往往比较费事耗时,然后再讲
6
中国人民大学 陈传波
chrisccb@126.com
STATA 十八讲1入门
述相应的工作在 STATA 中是如何高效完成的,这样,读者在学习的过程中会很
有成就感并增强学习的兴趣。其次,本书对每一行命令,都紧随其后,加上了相
应的解释和说明,让读者知道每一条命令在完成任务中所起到的作用及命令的用
法。本书的这种风格在教学实践中已经得到了检验和提升,对照本书上机操作,
能很快实现从入门到精通的飞跃。
对想自如地处理数据和描述数据的读者来说,本书的前 9 讲将会十分有帮
助,作者把最常用的命令和技巧都进行了简明地介绍。第 1 讲提供了一个入门,
第 2 讲介绍了 STATA 特有的命令结构,尽管 STATA 也具备窗口操作功能,但是
该软件的使用者基本上都倾向于自己写命令,写命令看起来似乎很困难,其实不
然,STATA 的命令与英文原意完全一致,容易记住,而且 STATA 命令语句的格
式完全符合日常的思维和逻辑习惯,只要刚开始时尽量以坚持写程序的方式来工
作,很快就会熟悉这种有利于今后灵活自如运用软件的操作方式。第 3 讲和第 4
讲对于经常需要做数据清理的读者来说非常有帮助,通常清理数据更多地是为了
与更多人共享,因此,对数据进行合理地标签和编排就显得非常重要;另外,采
用程序语句来清理数据,有助于其他严肃的研究者重新评估数据清理中的一些处
理方式,而且改变某些处理方式也因此会变得相当容易,只需要改变几个命令语
句即可。第 6 讲和第 7 讲涉及到较高深一些的程序和流程语句,对于追求高效率
或经常处理和分析数据的读者来说,这些技能是必不可少的。第 8 讲介绍了矩阵,
结合矩阵往往会使工作效率更高。利用 STATA 能够绘制出精美的图形,在数据
描述中,图形往往是最有力量的,掌握一点绘图命令会使你如虎添翼。
本书从第 10 讲开始,运用蒙特卡洛模拟方法,将基于随机变量的数理统计
和计量经济学的核心思想和方法的黑箱打开,让读者在如同做游戏一样的感觉中
深刻理解抽样分布、假设检验、回归分析等方法的强大魔力和无处不在的陷阱,
这有利于读者批判性地理解他人基于统计数据得出的结论,也很利于读者在自己
运用统计和计量分析时正确对待和解释估计结果。
本书从随机变量的模拟出发,介绍了随机变量的分布及抽样分布,通过模拟
揭示参数估计与假设检验的原理,然后从科学探索的高度介绍最小二乘法的原
理,并模拟最小二乘假设不成立时的偏误。利用 STATA 软件提供的强大模拟功
能,直观地展现出即使在所有前提条件成立时,由于随机项的存在,我们所得到
的估计结果也只能以一定的概率保证其涵盖总体参数,更不用说,当关键假设不
成立,尤其是存在内生性时,简单地使用最小二乘将会得到不一致的结果,从而
计量分析往往是没有意义甚至会产生误导。这些内容,一方面有助于读者自己编
写程序、灵活自如地做自己的研究,另一方面也有助于读者更深刻地更直观掌地
握数理统计和计量经济学,有助于在自己的研究和实证论文写作中提高模型的档
次和水平。本书第 17 讲利用模拟技术展示了一致估计所需要的假设条件,而第
18 讲则提供了一个综合性案例。
作者学习和使用 STATA 软件已有 9 年时间,在学习和使用中摸索出一套最
快由入门到较高水平掌握该软件的方法,这些经验的技巧的结晶体现在本教程的
中国人民大学 陈传波
chrisccb@126.com
7
STATA 十八讲1入门
方方面面。在中国人民大学试用的过程中,已经达到老师基本上不必讲授,学生
可以对照该教程自己上机运行,经过教学实践的检验和反复修改,使用中可能遇
到的大多数问题已经事先考虑到并已解决。
本书适用于需要统计和计量分析的任何领域,包括金融、经济、统计、生物
学、医学,考虑到这种广泛的适用性,书中未就特定领域举例,而是举了一些大
家都能理解和接受的例子,并着眼于让读者通过边看边操作的方式提高数据处理
能力和模型分析能力。在浩入烟海的 STATA 英文操作手册及教程中,本书取其
精要,相信能对大家快速掌握该软件并深刻理解统计和计量的基本概念和理论有
所助益。
中国人民大学 陈传波
chrisccb@126.com
8