logo资料库

数理统计实验练习-大作业-matlab练习.docx

第1页 / 共23页
第2页 / 共23页
第3页 / 共23页
第4页 / 共23页
第5页 / 共23页
第6页 / 共23页
第7页 / 共23页
第8页 / 共23页
资料共23页,剩余部分请下载后查看
1前言
2数据处理
2.1原始数据采集
2.2原始数据处理
2.3经验分布函数
2.4搜集到的常见的概率分布
2.4.1 离散型概率分布
2.4.2 连续型概率分布
3总体分布的参数估计
3.1 矩估计法估计参数
3.2 极大似然估计法估计参数
3.3 参数区间估计
3.3.1方差未知,求数学期望
3.3.2数学期望,方差
4参数的假设检验
4.1样本统计数据的t检验
4.2样本统计数据的检验
5非参数假设检验
5.1拟合优度检验
5.2 对分布结果的分析
6附录
目录 1 前言 ..................................................................................................................................................1 2 数据处理 ......................................................................................................................................... 2 2.1 原始数据采集 ...................................................................................................................... 2 2.2 原始数据处理 ...................................................................................................................... 3 2.3 经验分布函数 ...................................................................................................................... 5 2.4 搜集到的常见的概率分布 .................................................................................................. 5 2.4.1 离散型概率分布...................................................................................................... 5 2.4.2 连续型概率分布...................................................................................................... 7 3 总体分布的参数估计................................................................................................................... 12 3.1 矩估计法估计参数 ........................................................................................................... 12 3.2 极大似然估计法估计参数...............................................................................................13 3.3 参数区间估计 ................................................................................................................... 14 2 未知,求数学期望的置信区间.......................................................... 14 2 的置信区间 ....................................15 4 参数的假设检验 ........................................................................................................................... 16 4.1 样本统计数据的 t 检验.....................................................................................................16 4.2 样本统计数据的 2 检验 ..................................................................................................17 5 非参数假设检验........................................................................................................................... 18 -2 拟合优度检验 .............................................................................................................18 5.1 5.2 对 -2 分布结果的分析 .................................................................................................. 19 6 附录 ................................................................................................................................................20 3.3.1 方差 3.3.2 数学期望,方差 2 均未知,求方差
1 前言 本学期学习了姜永老师的数理统计课程,为了更加深入的了解数理统计的相 关概念和使用方法,同时也为了提升自己的实践能力,特此结合自身所学方向做 了这次实验,并运用 Matlab 软件结合数理统计的方法对实验结果进行分析。 自身所学为计算机应用技术中的人工智能方向,我们实验室的主要研究方向 有,自然语言处理,机器翻译,知识工程,机器学习,信息检索等方向。此次实 验选择了机器翻译中最基本的环节——句子划分,即分词实验。此次分词实验采 用的方法是基于词典的分词,通过对分词结果的统计分析得出分词准确率等信 息。具体操作为选取一个文本文件,对其中的句子进行划分,统计分词结果并与 标准答案对照,标准答案以 100 个词为一组,选取 100 组。比如,有一个段落, 标准分词为 100 个,而实验分词为 103 个,其中与标准答案相同的有 93 个,则 实验结果记为 93。每收集一次数据都要用程序跑一下,还得修改文件。此次实 验数据虽未 100 条记录,实则选取了 12000 多行原始数据,收集数据也用了近 5 个小时。接下来需要熟悉使用 Matlab 软件,运用其导入数据,处理数据。主要 是利用其中丰富的函数和其他功能进行画图,绘制函数,计算数据。在此过程中 还需结合数理统计中的方法科学分析,以便得到可靠结论。 1
2 数据处理 2.1 原始数据采集 经过实验采集的原始数据如下表所示。 92 88 87 86 91 92 87 76 84 81 92 62 93 94 91 95 91 94 98 87 表 1 原始数据表 95 84 89 90 92 91 88 86 93 93 94 93 93 97 93 87 100 90 95 89 98 92 91 89 98 90 92 93 90 91 93 29 96 87 94 90 87 93 96 91 95 84 95 91 92 85 85 68 91 91 88 83 81 93 92 87 88 80 95 92 93 93 83 84 92 87 95 92 91 84 88 95 91 88 93 87 93 90 83 85 经过 Matlab 函数 sort()排序后如图。 各数据频数及频率分布如下图。 图 1 原始数据升序排序图 图 2 数据频数频率分布图 2
2.2 原始数据处理 对原始数据处理可得直方图及折线图如下。 图 3 数据直方图 由直方图可以看出绝大多数数据大于 80。 对原始数据处理可得箱线图(盒子图)如下。 图 4 数据盒子图 如图 4 所示,数据中有一些异常点,分别是 29,62,68,76。这些点明显低于 常值,实际上在实验中这些数据是由于分词规则不完全导致的。分词规则不完全 则会造成大量错误分词,所以统计的正确分词就少了。 3
对原始数据处理可得茎叶图如下。 由茎叶图可以看出,数据集中分布在 80~90,90~100 这两个数据段。 图 5 数据茎叶图 表 2 样本特征数表 极小值 极大值 极差 中位数 众数 平均值 方差 标准差 偏度 峰度 29 100 71 91 93 89.15 68.4146 8.2711 -4.3793 30.0995 >> mean(stem) %求平均值 ans = 89.1500 >> sum((stem-89.15).^2)/(100-1) %求方差 ans = 68.4116 >> sqrt(ans) %求标准差 ans = 8.2711 >> V1=sum((stem-89.15).^3)/(99*S^3) %求偏度 V1 = -4.3793 %V1<0,分布呈左偏态 >> V2=sum((stem-89.15).^4)/(99*S^4) %求峰度 V2 = 30.0955 %V2>3 为尖牙分布 4
2.3 经验分布函数 记经验分布函数表达式为 F(x)。 )( xF n ,0   k  n  ,1   x  x 1 , x k  x x k 1  , k  ,...,2,1 n  1 x  x n 绘制的经验分布函数如下图所示。 图 6 经验分布函数图 2.4 搜集到的常见的概率分布 2.4.1 离散型概率分布 1. 二项分布 n 次独立的贝努利实验,其实验结果的分布(一种结果出现 x 次的概率是多少的 分布)即为二项分布 应用二项分布的重要条件是:每一种实验结果在每次实验 中都有恒定的概率,各实验之间是重复独立的 5
2. 泊松分布 泊松分布是一种用来描述一定的空间和时间里稀有事件发生次数的概率分布 泊松分布变量 x 只取零和正整数:0、1、2…..其概率函数为: 6
3. 超几何分布 适用范围:多次完全相同并且相互独立的重复试验,如果在有限总体中不重复抽 样,抽样成功的次数 X 的概率分布服从超几何分布,如福利彩票 2.4.2 连续型概率分布 1. 均匀分布 若随机变量 X 具有概率密度函数 7
分享到:
收藏