数理统计学大作业
计算机学院
软件工程
学 院
专 业
学 号
姓 名
指导教师
*****大学
2017 年 11 月 25 日
摘 要
数理统计学是研究有效地运用数据收集与数据处理、多种模型与技术分析、
社会调查与统计分析等,对科技前沿和国民经济重大问题和复杂问题,以及社会
和政府中的大量问题,如何对数据进行推理,以便对问题进行推断或预测,从而
对决策和行动提供依据和建议的应用广泛的基础性学科。数理统计学是从本世纪
初开始发展起来的一门学科,它是以概率论的理论为基础,根据观察得到的大量
数据进行整理、分析并对所研究的随机现象的概率特征作出合理的估计和判断的
数学分支。虽然数理统计学是一门比较年青的学科,但随着概率论的产生和应用
正在逐渐兴起,现已广泛地应用于工农业生产及科学技术之中,成为一门理论严
谨、应用广泛、发展迅速、方法独特的学科。自然语言处理的目的是实现计算机
对语言信息的自动分析和理解。语言模型在自然语言处理中占有重要的地位,尤
其在基于统计模型的语音识别、机器翻译、句法分析、短语识别、词性标注、手
写体识别和拼写纠错等相关研究中得到了广泛应用。
其中,在设计语言模型时,我们通常用混乱度来衡量语言模型的好坏。在语
言模型中,它的混乱度越小,说明它越接近真实语言的情况。
关键词:数理统计;自然语言处理;数据;混乱度;
目录
前 言............................................................................................................................4
一 采集样本及数据整理..............................................................................................5
1.1 数据的收集方法及说明............................................................................... 5
1.2 数据整理:给出频数、频率分布表及说明................................................. 6
1.3 画出直方图、折线图、茎叶图和盒子图..................................................... 8
1.4 写出样本特征数表达式并 matlab 计算结果............................................. 10
1.5 画出经验分布函数....................................................................................... 11
二 常见概率分布........................................................................................................12
2.1 单点分布........................................................................................................ 12
2.2 伯努利分布(两点分布)............................................................................ 12
2.3 二项分布........................................................................................................ 12
2.4 泊松分布........................................................................................................ 13
2.5 几何分布........................................................................................................ 14
2.5 超几何分布.................................................................................................... 14
2.6 帕斯卡分布.................................................................................................... 15
2.7 负二项分布.................................................................................................... 15
2.8 均匀分布........................................................................................................ 16
2.9 指数分布........................................................................................................ 17
2.10 正态分布...................................................................................................... 18
2.11 对数正态分布.............................................................................................. 19
2.12 威布尔分布.................................................................................................. 20
2.13 伽马分布...................................................................................................... 21
2.14 贝塔分布...................................................................................................... 21
2.15 卡方分布...................................................................................................... 22
2.16 T 分布.......................................................................................................... 23
2.17 F 分布.......................................................................................................... 24
2.18 柯西分布...................................................................................................... 25
3.1 矩估计法........................................................................................................ 26
3.2 极大似然估计................................................................................................ 27
四 参数区间估计........................................................................................................29
(1)选取样本的函数......................................................................................... 29
(2) 查分位数................................................................................................... 29
五 参数的假设检验....................................................................................................32
5.1 样本统计数据的 t 检验................................................................................ 32
六 非参数假设检验....................................................................................................35
总 结............................................................................................................................38
前 言
自然语言处理是一项十分庞大而繁复的工程,它是自然科学和社会科学交叉
的学科。自然语言处理的目的是实现计算机对语言信息的自动分析和理解。它的
研究具有很强的生命力,是当代科学新的生长点,这不仅对信息科学,而且对人
知语言学,心理学,以及对国民经济和社会的发展都会起到推动作用。
近几年来,全球范围内的自然语言处理学界兴起了对大规模语料库的研究兴
趣。这主要是因为计算机产业和信息处理的迅速发展,计算机的存储能力和运算
速度大大提高,使得在计算机中存储大量的文本和文本方便快速地扫描,检索成
为可能;因特网上的电子文本数量与日俱增,可以比较容易地获得大量语料。另
外语音识别领域在 20 世纪 70 年代开始逐渐采用概率模型替代原来的基于规则的
识别手段,概率模型的参数是通过大量语料经过统计训练得来的。概率模型的识
别效果大大优于使用规则的方法,这给自然语言处理领域对文本语料的研究提供
了有益的效果。
语言模型在自然语言处理中占有重要的地位,尤其在基于统计模型的语音识
别、机器翻译、句法分析、短语识别、词性标注、手写体识别和拼写纠错等相关
研究中得到了广泛应用。
其中,在设计语言模型时,我们通常用混乱度来衡量语言模型的好坏。在语
言模型中,它的混乱度越小,说明它越接近真实语言的情况。本实验通过对 110
篇语料的测量,得出 110 个混乱度样本的值,对他们进行加工处理,给出关于样
本的参数和 2 的极大似然估计,参数区间估计,参数 t 检验和 2 检验以及利
用拟合优度检验进行的非参数检验。从而来判断一个语言模型的好坏,为设计语
言模型提供依据。
一 采集样本及数据整理
1.1 数据的收集方法及说明
本作业所采用的数据是计算机专业自然语言处理中 110 篇语料混乱度样本
值,由实验室的实验数据获取,其中具体数据如下:
189.41
169.17
199.90
179.31
205.47
183.34
178.96
179.81
189.92
159.31
216.81
188.42
221.34
168.47
159.36
211.46
194.03
198.75
190.37
205.18
187.23
191.39
198.65
193.24
199.05
176.82
188.36
183.09
197.51
197.36
199.64
194.93
192.31
172.84
181.42
188.01
196.54
194.17
194.00
183.06
186.97
209.15
172.45
177.42
173.18
164.58
180.42
190.63
175.43
175.24
177.36
184.69
188.67
187.95
165.85
182.31
194.76
196.52
202.66
181.53
185.67
176.82
194.63
194.67
220.81
184.16
192.15
180.23
196.34
179.19
196.31
189.36
192.36
192.09
179.92
194.37
191.74
180.74
204.19
163.87
190.86
198.37
170.56
201.15
186.26
183.29
177.03
192.31
191.70
157.06
182.55
181.22
175.25
182.26
203.57
177.42
183.92
194.57
194.56
163.29
157.83
178.65
195.84
168.26
189.93
162.43
192.87
191.08
176.32
207.81
表 1.1
110 篇语料混乱度样本值
1.2 数据整理:给出频数、频率分布表及说明
将搜集到的数据按递增顺序排列,具体数据如下:
157.06
157.83
159.31
159.36
162.43
163.29
163.87
164.58
165.85
168.26
168.47
169.17
170.56
172.45
172.84
173.18
175.24
175.25
175.43
176.32
176.82
176.82
177.03
177.36
177.42
177.42
178.65
178.96
179.19
179.31
179.81
179.92
180.23
180.42
180.74
181.22
181.42
181.53
182.26
182.31
182.55
183.06
183.09
183.29
183.34
183.92
184.16
184.69
185.67
186.26
186.97
187.23
187.95
188.01
188.36
188.42
188.67
189.36
189.41
189.92
189.93
190.37
190.63
190.86
191.08
191.39
191.70
191.74
192.09
192.15
192.31
192.31
192.36
192.87
193.24
194.00
194.03
194.17
194.37
194.56
194.57
194.63
194.67
194.76
194.93
195.84
196.31
196.34
196.52
196.54
197.36
197.51
198.37
198.65
198.75
199.05
199.64
199.90
201.15
202.66
203.57
204.19
205.18
205.47
207.81
209.15
211.46
216.81
220.81
221.34
表 1.2
110 篇语料混乱度递增顺序排列的样本值
上述数据的最小值、最大值分别为 157.06,221.34,我们取
a
154.5
,
b
224.5
,全距为 224.5 154.5 70
L
。把数据分布的区间 (154.5,224.5] 等分为
224.5 154.5
, 1,2,3,
i
7
。计算得出混
,10
10 个区间,等组距为
t
i
b a
k
乱度样本值的频数与频率分布表。
10
组序
分组区间
组中值
频数
(154.5,161.5]
(161.5,168.5]
(168.5,175.5]
(175.5,182.5]
(182.5,189.5]
(189.5,196.5]
(196.5,203.5]
(203.5,210.5]
(210.5,217.5]
(217.5,224.5]
158
165
172
179
186
193
200
207
214
221
1
2
3
4
5
6
7
8
9
10
总计
4
7
8
21
19
29
12
6
2
2
110
表 1.3 混乱度样本值的频数与频率分布表
累计频率
0.0363
0.0999
0.1726
0.3635
0.5362
0.7998
0.9089
0.9364
0.9817
1
频率
0.0363
0.0636
0.0727
0.1909
0.1727
0.2636
0.1091
0.0545
0.0183
0.0183
1
1.3 画出直方图、折线图、茎叶图和盒子图
图 1.1 混乱度频数的直方图
图 1.2 混乱度频数的折线图
注:以上两图中的 X 坐标都表示组序,Y 坐标表示频数。