目录
1 前言 ..................................................................................................................................................1
2 数据处理 ......................................................................................................................................... 2
2.1 原始数据采集 ...................................................................................................................... 2
2.2 原始数据处理 ...................................................................................................................... 3
2.3 经验分布函数 ...................................................................................................................... 5
2.4 搜集到的常见的概率分布 .................................................................................................. 5
2.4.1 离散型概率分布...................................................................................................... 5
2.4.2 连续型概率分布...................................................................................................... 7
3 总体分布的参数估计................................................................................................................... 12
3.1 矩估计法估计参数 ........................................................................................................... 12
3.2 极大似然估计法估计参数...............................................................................................13
3.3 参数区间估计 ................................................................................................................... 14
2 未知,求数学期望的置信区间.......................................................... 14
2 的置信区间 ....................................15
4 参数的假设检验 ........................................................................................................................... 16
4.1 样本统计数据的 t 检验.....................................................................................................16
4.2 样本统计数据的 2 检验 ..................................................................................................17
5 非参数假设检验........................................................................................................................... 18
-2 拟合优度检验 .............................................................................................................18
5.1
5.2 对 -2 分布结果的分析 .................................................................................................. 19
6 附录 ................................................................................................................................................20
3.3.1 方差
3.3.2 数学期望,方差
2 均未知,求方差
1 前言
本学期学习了姜永老师的数理统计课程,为了更加深入的了解数理统计的相
关概念和使用方法,同时也为了提升自己的实践能力,特此结合自身所学方向做
了这次实验,并运用 Matlab 软件结合数理统计的方法对实验结果进行分析。
自身所学为计算机应用技术中的人工智能方向,我们实验室的主要研究方向
有,自然语言处理,机器翻译,知识工程,机器学习,信息检索等方向。此次实
验选择了机器翻译中最基本的环节——句子划分,即分词实验。此次分词实验采
用的方法是基于词典的分词,通过对分词结果的统计分析得出分词准确率等信
息。具体操作为选取一个文本文件,对其中的句子进行划分,统计分词结果并与
标准答案对照,标准答案以 100 个词为一组,选取 100 组。比如,有一个段落,
标准分词为 100 个,而实验分词为 103 个,其中与标准答案相同的有 93 个,则
实验结果记为 93。每收集一次数据都要用程序跑一下,还得修改文件。此次实
验数据虽未 100 条记录,实则选取了 12000 多行原始数据,收集数据也用了近 5
个小时。接下来需要熟悉使用 Matlab 软件,运用其导入数据,处理数据。主要
是利用其中丰富的函数和其他功能进行画图,绘制函数,计算数据。在此过程中
还需结合数理统计中的方法科学分析,以便得到可靠结论。
1
2 数据处理
2.1 原始数据采集
经过实验采集的原始数据如下表所示。
92
88
87
86
91
92
87
76
84
81
92
62
93
94
91
95
91
94
98
87
表 1 原始数据表
95
84
89
90
92
91
88
86
93
93
94
93
93
97
93
87
100
90
95
89
98
92
91
89
98
90
92
93
90
91
93
29
96
87
94
90
87
93
96
91
95
84
95
91
92
85
85
68
91
91
88
83
81
93
92
87
88
80
95
92
93
93
83
84
92
87
95
92
91
84
88
95
91
88
93
87
93
90
83
85
经过 Matlab 函数 sort()排序后如图。
各数据频数及频率分布如下图。
图 1 原始数据升序排序图
图 2 数据频数频率分布图
2
2.2 原始数据处理
对原始数据处理可得直方图及折线图如下。
图 3 数据直方图
由直方图可以看出绝大多数数据大于 80。
对原始数据处理可得箱线图(盒子图)如下。
图 4 数据盒子图
如图 4 所示,数据中有一些异常点,分别是 29,62,68,76。这些点明显低于
常值,实际上在实验中这些数据是由于分词规则不完全导致的。分词规则不完全
则会造成大量错误分词,所以统计的正确分词就少了。
3
对原始数据处理可得茎叶图如下。
由茎叶图可以看出,数据集中分布在 80~90,90~100 这两个数据段。
图 5 数据茎叶图
表 2 样本特征数表
极小值
极大值
极差
中位数
众数
平均值
方差
标准差
偏度
峰度
29
100
71
91
93
89.15
68.4146
8.2711
-4.3793
30.0995
>> mean(stem) %求平均值
ans =
89.1500
>> sum((stem-89.15).^2)/(100-1)
%求方差
ans =
68.4116
>> sqrt(ans)
%求标准差
ans =
8.2711
>> V1=sum((stem-89.15).^3)/(99*S^3)
%求偏度
V1 =
-4.3793
%V1<0,分布呈左偏态
>> V2=sum((stem-89.15).^4)/(99*S^4)
%求峰度
V2 =
30.0955
%V2>3 为尖牙分布
4
2.3 经验分布函数
记经验分布函数表达式为 F(x)。
)(
xF
n
,0
k
n
,1
x
x
1
,
x
k
x
x
k
1
,
k
,...,2,1
n
1
x
x
n
绘制的经验分布函数如下图所示。
图 6 经验分布函数图
2.4 搜集到的常见的概率分布
2.4.1 离散型概率分布
1. 二项分布
n 次独立的贝努利实验,其实验结果的分布(一种结果出现 x 次的概率是多少的
分布)即为二项分布 应用二项分布的重要条件是:每一种实验结果在每次实验
中都有恒定的概率,各实验之间是重复独立的
5
2. 泊松分布
泊松分布是一种用来描述一定的空间和时间里稀有事件发生次数的概率分布
泊松分布变量 x 只取零和正整数:0、1、2…..其概率函数为:
6
3. 超几何分布
适用范围:多次完全相同并且相互独立的重复试验,如果在有限总体中不重复抽
样,抽样成功的次数 X 的概率分布服从超几何分布,如福利彩票
2.4.2 连续型概率分布
1. 均匀分布 若随机变量 X 具有概率密度函数
7