logo资料库

数理统计大作业.doc

第1页 / 共40页
第2页 / 共40页
第3页 / 共40页
第4页 / 共40页
第5页 / 共40页
第6页 / 共40页
第7页 / 共40页
第8页 / 共40页
资料共40页,剩余部分请下载后查看
一 采集样本及数据整理
1.1 数据的收集方法及说明
1.2 数据整理:给出频数、频率分布表及说明
1.3 画出直方图、折线图、茎叶图和盒子图
1.4 写出样本特征数表达式并matlab计算结果
1.5 画出经验分布函数
二 常见概率分布
2.1单点分布
2.2伯努利分布(两点分布)
2.3二项分布
2.4泊松分布
2.5几何分布
2.5超几何分布
2.6帕斯卡分布
2.7负二项分布
2.8均匀分布
2.9指数分布
2.10正态分布
2.11对数正态分布
2.12威布尔分布
2.13伽马分布
2.14贝塔分布
2.15卡方分布
2.16 T分布
2.17 F分布
2.18柯西分布
三 计算样本的
3.1矩估计法
3.2极大似然估计
四 参数区间估计
4.1方差
4.2数学期望
五 参数的假设检验
5.1样本统计数据的t检验
5.2样本统计数据的检验
六 非参数假设检验
6.1 拟合优度检验
数理统计学大作业 计算机学院 软件工程 学 院 专 业 学 号 姓 名 指导教师 *****大学 2017 年 11 月 25 日
摘 要 数理统计学是研究有效地运用数据收集与数据处理、多种模型与技术分析、 社会调查与统计分析等,对科技前沿和国民经济重大问题和复杂问题,以及社会 和政府中的大量问题,如何对数据进行推理,以便对问题进行推断或预测,从而 对决策和行动提供依据和建议的应用广泛的基础性学科。数理统计学是从本世纪 初开始发展起来的一门学科,它是以概率论的理论为基础,根据观察得到的大量 数据进行整理、分析并对所研究的随机现象的概率特征作出合理的估计和判断的 数学分支。虽然数理统计学是一门比较年青的学科,但随着概率论的产生和应用 正在逐渐兴起,现已广泛地应用于工农业生产及科学技术之中,成为一门理论严 谨、应用广泛、发展迅速、方法独特的学科。自然语言处理的目的是实现计算机 对语言信息的自动分析和理解。语言模型在自然语言处理中占有重要的地位,尤 其在基于统计模型的语音识别、机器翻译、句法分析、短语识别、词性标注、手 写体识别和拼写纠错等相关研究中得到了广泛应用。 其中,在设计语言模型时,我们通常用混乱度来衡量语言模型的好坏。在语 言模型中,它的混乱度越小,说明它越接近真实语言的情况。 关键词:数理统计;自然语言处理;数据;混乱度;
目录 前 言............................................................................................................................4 一 采集样本及数据整理..............................................................................................5 1.1 数据的收集方法及说明............................................................................... 5 1.2 数据整理:给出频数、频率分布表及说明................................................. 6 1.3 画出直方图、折线图、茎叶图和盒子图..................................................... 8 1.4 写出样本特征数表达式并 matlab 计算结果............................................. 10 1.5 画出经验分布函数....................................................................................... 11 二 常见概率分布........................................................................................................12 2.1 单点分布........................................................................................................ 12 2.2 伯努利分布(两点分布)............................................................................ 12 2.3 二项分布........................................................................................................ 12 2.4 泊松分布........................................................................................................ 13 2.5 几何分布........................................................................................................ 14 2.5 超几何分布.................................................................................................... 14 2.6 帕斯卡分布.................................................................................................... 15 2.7 负二项分布.................................................................................................... 15 2.8 均匀分布........................................................................................................ 16 2.9 指数分布........................................................................................................ 17 2.10 正态分布...................................................................................................... 18 2.11 对数正态分布.............................................................................................. 19 2.12 威布尔分布.................................................................................................. 20 2.13 伽马分布...................................................................................................... 21 2.14 贝塔分布...................................................................................................... 21 2.15 卡方分布...................................................................................................... 22 2.16 T 分布.......................................................................................................... 23 2.17 F 分布.......................................................................................................... 24 2.18 柯西分布...................................................................................................... 25 3.1 矩估计法........................................................................................................ 26 3.2 极大似然估计................................................................................................ 27 四 参数区间估计........................................................................................................29 (1)选取样本的函数......................................................................................... 29 (2) 查分位数................................................................................................... 29 五 参数的假设检验....................................................................................................32 5.1 样本统计数据的 t 检验................................................................................ 32 六 非参数假设检验....................................................................................................35 总 结............................................................................................................................38
前 言 自然语言处理是一项十分庞大而繁复的工程,它是自然科学和社会科学交叉 的学科。自然语言处理的目的是实现计算机对语言信息的自动分析和理解。它的 研究具有很强的生命力,是当代科学新的生长点,这不仅对信息科学,而且对人 知语言学,心理学,以及对国民经济和社会的发展都会起到推动作用。 近几年来,全球范围内的自然语言处理学界兴起了对大规模语料库的研究兴 趣。这主要是因为计算机产业和信息处理的迅速发展,计算机的存储能力和运算 速度大大提高,使得在计算机中存储大量的文本和文本方便快速地扫描,检索成 为可能;因特网上的电子文本数量与日俱增,可以比较容易地获得大量语料。另 外语音识别领域在 20 世纪 70 年代开始逐渐采用概率模型替代原来的基于规则的 识别手段,概率模型的参数是通过大量语料经过统计训练得来的。概率模型的识 别效果大大优于使用规则的方法,这给自然语言处理领域对文本语料的研究提供 了有益的效果。 语言模型在自然语言处理中占有重要的地位,尤其在基于统计模型的语音识 别、机器翻译、句法分析、短语识别、词性标注、手写体识别和拼写纠错等相关 研究中得到了广泛应用。 其中,在设计语言模型时,我们通常用混乱度来衡量语言模型的好坏。在语 言模型中,它的混乱度越小,说明它越接近真实语言的情况。本实验通过对 110 篇语料的测量,得出 110 个混乱度样本的值,对他们进行加工处理,给出关于样 本的参数和 2 的极大似然估计,参数区间估计,参数 t 检验和 2 检验以及利 用拟合优度检验进行的非参数检验。从而来判断一个语言模型的好坏,为设计语 言模型提供依据。
一 采集样本及数据整理 1.1 数据的收集方法及说明 本作业所采用的数据是计算机专业自然语言处理中 110 篇语料混乱度样本 值,由实验室的实验数据获取,其中具体数据如下: 189.41 169.17 199.90 179.31 205.47 183.34 178.96 179.81 189.92 159.31 216.81 188.42 221.34 168.47 159.36 211.46 194.03 198.75 190.37 205.18 187.23 191.39 198.65 193.24 199.05 176.82 188.36 183.09 197.51 197.36 199.64 194.93 192.31 172.84 181.42 188.01 196.54 194.17 194.00 183.06 186.97 209.15 172.45 177.42 173.18 164.58 180.42 190.63 175.43 175.24 177.36 184.69 188.67 187.95 165.85 182.31 194.76 196.52 202.66 181.53 185.67 176.82 194.63 194.67 220.81 184.16 192.15 180.23 196.34 179.19 196.31 189.36 192.36 192.09 179.92 194.37 191.74 180.74 204.19 163.87 190.86 198.37 170.56 201.15 186.26 183.29 177.03 192.31 191.70 157.06 182.55 181.22 175.25 182.26 203.57 177.42 183.92 194.57 194.56 163.29 157.83 178.65 195.84 168.26 189.93 162.43 192.87 191.08 176.32 207.81 表 1.1 110 篇语料混乱度样本值
1.2 数据整理:给出频数、频率分布表及说明 将搜集到的数据按递增顺序排列,具体数据如下: 157.06 157.83 159.31 159.36 162.43 163.29 163.87 164.58 165.85 168.26 168.47 169.17 170.56 172.45 172.84 173.18 175.24 175.25 175.43 176.32 176.82 176.82 177.03 177.36 177.42 177.42 178.65 178.96 179.19 179.31 179.81 179.92 180.23 180.42 180.74 181.22 181.42 181.53 182.26 182.31 182.55 183.06 183.09 183.29 183.34 183.92 184.16 184.69 185.67 186.26 186.97 187.23 187.95 188.01 188.36 188.42 188.67 189.36 189.41 189.92 189.93 190.37 190.63 190.86 191.08 191.39 191.70 191.74 192.09 192.15 192.31 192.31 192.36 192.87 193.24 194.00 194.03 194.17 194.37 194.56 194.57 194.63 194.67 194.76 194.93 195.84 196.31 196.34 196.52 196.54 197.36 197.51 198.37 198.65 198.75 199.05 199.64 199.90 201.15 202.66 203.57 204.19 205.18 205.47 207.81 209.15 211.46 216.81 220.81 221.34 表 1.2 110 篇语料混乱度递增顺序排列的样本值 上述数据的最小值、最大值分别为 157.06,221.34,我们取 a  154.5 , b  224.5 ,全距为 224.5 154.5 70 L    。把数据分布的区间 (154.5,224.5] 等分为 224.5 154.5  , 1,2,3, i  7  。计算得出混 ,10 10 个区间,等组距为 t   i b a  k  乱度样本值的频数与频率分布表。  10
组序 分组区间 组中值 频数 (154.5,161.5] (161.5,168.5] (168.5,175.5] (175.5,182.5] (182.5,189.5] (189.5,196.5] (196.5,203.5] (203.5,210.5] (210.5,217.5] (217.5,224.5] 158 165 172 179 186 193 200 207 214 221 1 2 3 4 5 6 7 8 9 10 总计 4 7 8 21 19 29 12 6 2 2 110 表 1.3 混乱度样本值的频数与频率分布表 累计频率 0.0363 0.0999 0.1726 0.3635 0.5362 0.7998 0.9089 0.9364 0.9817 1 频率 0.0363 0.0636 0.0727 0.1909 0.1727 0.2636 0.1091 0.0545 0.0183 0.0183 1
1.3 画出直方图、折线图、茎叶图和盒子图 图 1.1 混乱度频数的直方图 图 1.2 混乱度频数的折线图 注:以上两图中的 X 坐标都表示组序,Y 坐标表示频数。
分享到:
收藏