数理统计实验练习-大作业-matlab练习.docx-资料库

phynikesi-10706450-4744300845198666318.docx.pdf-第1页.png

第1页 / 共23页

phynikesi-10706450-4744300845198666318.docx.pdf-第2页.png

第2页 / 共23页

phynikesi-10706450-4744300845198666318.docx.pdf-第3页.png

第3页 / 共23页

phynikesi-10706450-4744300845198666318.docx.pdf-第4页.png

第4页 / 共23页

phynikesi-10706450-4744300845198666318.docx.pdf-第5页.png

第5页 / 共23页

phynikesi-10706450-4744300845198666318.docx.pdf-第6页.png

第6页 / 共23页

phynikesi-10706450-4744300845198666318.docx.pdf-第7页.png

第7页 / 共23页

phynikesi-10706450-4744300845198666318.docx.pdf-第8页.png

第8页 / 共23页

目录 1 前言 ..................................................................................................................................................1 2 数据处理 ......................................................................................................................................... 2 2.1 原始数据采集 ...................................................................................................................... 2 2.2 原始数据处理 ...................................................................................................................... 3 2.3 经验分布函数 ...................................................................................................................... 5 2.4 搜集到的常见的概率分布 .................................................................................................. 5 2.4.1 离散型概率分布...................................................................................................... 5 2.4.2 连续型概率分布...................................................................................................... 7 3 总体分布的参数估计................................................................................................................... 12 3.1 矩估计法估计参数 ........................................................................................................... 12 3.2 极大似然估计法估计参数...............................................................................................13 3.3 参数区间估计 ................................................................................................................... 14 2 未知，求数学期望的置信区间.......................................................... 14 2 的置信区间 ....................................15 4 参数的假设检验 ........................................................................................................................... 16 4.1 样本统计数据的 t 检验.....................................................................................................16 4.2 样本统计数据的 2 检验 ..................................................................................................17 5 非参数假设检验........................................................................................................................... 18 -2 拟合优度检验 .............................................................................................................18 5.1 5.2 对 -2 分布结果的分析 .................................................................................................. 19 6 附录 ................................................................................................................................................20 3.3.1 方差 3.3.2 数学期望，方差 2 均未知，求方差

1 前言本学期学习了姜永老师的数理统计课程，为了更加深入的了解数理统计的相关概念和使用方法，同时也为了提升自己的实践能力，特此结合自身所学方向做了这次实验，并运用 Matlab 软件结合数理统计的方法对实验结果进行分析。自身所学为计算机应用技术中的人工智能方向，我们实验室的主要研究方向有，自然语言处理，机器翻译，知识工程，机器学习，信息检索等方向。此次实验选择了机器翻译中最基本的环节——句子划分，即分词实验。此次分词实验采用的方法是基于词典的分词，通过对分词结果的统计分析得出分词准确率等信息。具体操作为选取一个文本文件，对其中的句子进行划分，统计分词结果并与标准答案对照，标准答案以 100 个词为一组，选取 100 组。比如，有一个段落，标准分词为 100 个，而实验分词为 103 个，其中与标准答案相同的有 93 个，则实验结果记为 93。每收集一次数据都要用程序跑一下，还得修改文件。此次实验数据虽未 100 条记录，实则选取了 12000 多行原始数据，收集数据也用了近 5 个小时。接下来需要熟悉使用 Matlab 软件，运用其导入数据，处理数据。主要是利用其中丰富的函数和其他功能进行画图，绘制函数，计算数据。在此过程中还需结合数理统计中的方法科学分析，以便得到可靠结论。 1

2 数据处理 2.1 原始数据采集经过实验采集的原始数据如下表所示。 92 88 87 86 91 92 87 76 84 81 92 62 93 94 91 95 91 94 98 87 表 1 原始数据表 95 84 89 90 92 91 88 86 93 93 94 93 93 97 93 87 100 90 95 89 98 92 91 89 98 90 92 93 90 91 93 29 96 87 94 90 87 93 96 91 95 84 95 91 92 85 85 68 91 91 88 83 81 93 92 87 88 80 95 92 93 93 83 84 92 87 95 92 91 84 88 95 91 88 93 87 93 90 83 85 经过 Matlab 函数 sort()排序后如图。各数据频数及频率分布如下图。图 1 原始数据升序排序图图 2 数据频数频率分布图 2

2.2 原始数据处理对原始数据处理可得直方图及折线图如下。图 3 数据直方图由直方图可以看出绝大多数数据大于 80。对原始数据处理可得箱线图（盒子图）如下。图 4 数据盒子图如图 4 所示，数据中有一些异常点，分别是 29，62,68,76。这些点明显低于常值，实际上在实验中这些数据是由于分词规则不完全导致的。分词规则不完全则会造成大量错误分词，所以统计的正确分词就少了。 3

对原始数据处理可得茎叶图如下。由茎叶图可以看出，数据集中分布在 80~90,90~100 这两个数据段。图 5 数据茎叶图表 2 样本特征数表极小值极大值极差中位数众数平均值方差标准差偏度峰度 29 100 71 91 93 89.15 68.4146 8.2711 -4.3793 30.0995 >> mean(stem) %求平均值 ans = 89.1500 >> sum((stem-89.15).^2)/(100-1) %求方差 ans = 68.4116 >> sqrt(ans) %求标准差 ans = 8.2711 >> V1=sum((stem-89.15).^3)/(99*S^3) %求偏度 V1 = -4.3793 %V1<0,分布呈左偏态 >> V2=sum((stem-89.15).^4)/(99*S^4) %求峰度 V2 = 30.0955 %V2>3 为尖牙分布 4

2.3 经验分布函数记经验分布函数表达式为 F(x)。 )( xF n ,0   k  n  ,1   x  x 1 , x k  x x k 1  , k  ,...,2,1 n  1 x  x n 绘制的经验分布函数如下图所示。图 6 经验分布函数图 2.4 搜集到的常见的概率分布 2.4.1 离散型概率分布 1. 二项分布 n 次独立的贝努利实验，其实验结果的分布（一种结果出现 x 次的概率是多少的分布）即为二项分布应用二项分布的重要条件是：每一种实验结果在每次实验中都有恒定的概率，各实验之间是重复独立的 5

2. 泊松分布泊松分布是一种用来描述一定的空间和时间里稀有事件发生次数的概率分布泊松分布变量 x 只取零和正整数：0、1、2…..其概率函数为： 6

3. 超几何分布适用范围：多次完全相同并且相互独立的重复试验，如果在有限总体中不重复抽样，抽样成功的次数 X 的概率分布服从超几何分布，如福利彩票 2.4.2 连续型概率分布 1. 均匀分布若随机变量 X 具有概率密度函数 7

资料库

数理统计实验练习-大作业-matlab练习.docx

相关推荐

课程资源

热门标签

最新资料