R语言与EM算法.pdf

发布时间：2022-05-29 发布人：admin 分类：说明书资料大小：0.17M 资料格式：pdf 举报版权申诉

shaobogong-11929098-4744302542858183832.pdf-第1页.png

第1页 / 共2页

shaobogong-11929098-4744302542858183832.pdf-第2页.png

第2页 / 共2页

文本预览

2013年第 3 期 (总第 125 期 ) 信息通信 INFORMA TION & COM M UNICATION S 2O13 (Sum． No 125) R语言与 EM 算法李欢 (宁波职业技术学院，浙江宁波 315800) 摘要：R语言是一个开放的统计编程环境，提供一种集成的统计工具。随着互联网的发展，数据量越来越大，缺夫象也越来越多。如何在数据丢失的情况下，将数据分析结果达到最优，文章探讨 R软件的强大计算、统计功能应用与 EM 算法中，使缺失数据分析达到最优化。关键词：R语言；EM 算法；统计分析中图分类号：O211．62 文献标识码：A 文章编号：1673．1131(2013)03．0006—02 1 R简介 R是一种语言，一个开放的统计编程环境，是由 Bell实验室开发的一种方言 (dialect)之一，是一种集统计分析与图形直观显示于一体的统计分析软件，它是一套完整的数据处理、计算和制图软件系统，R是一种数学计算的环境，它可以提供一些集成的统计工具，但更大量的是它提供各种数学计算、统计计算的函数，从而使使用者能灵活机动地进行数据分析，甚至创造出符合需要的新的统计计算方法。在 R 网站上提供了统计及各个有关应用领域几乎所有最新的成果和代码公开的软件包。到 2010年底 R 的供使用的软件包数量已经超过 2700 个，其中 700个是最近半年增加的；例如仅仅空间统计一个方向的软件包就有 20多个。 2 EM 简介 3．1用 R 实现聚类分析聚类分析是以数据间的相似程度，或者说是数据间的距离为基础的。利用 hclust功能聚类样品集。样品集是否聚类到一起 ? 通过改变 hclust中的参数试用不同的类间距离进行训练。在 dist中通过改变 method参数试用不同的基因距离进行训练，下面是 R 的训练过程。 (1)利用相关系数和最大类间距离对 A样品进行系统聚类分析，再用欧式距离和平均类间距类对样品进行系统聚类分析，利用 stats包中的 heatmap功能，可以得到聚类分析的图像但是要注意，这个功能是对数据执行聚类分析，如果数据的数量过大，会导致这个方法运行缓慢。为了说明问题，我们仅选择 100 个数据为例。(2)我们尝试不同的聚类分裂方法，利用相关系数作为基因距离对样品进行 Knleans聚类分析。利用 cluster包 EM (Expectatioin．Maximalization)算法即期望最大算法，中的 PAM 功能对样品进行“Partition Around Medoids”分析，被誉为是数据挖掘的十大算法之一。它是在概率模型中寻找参数最大似然估计的算法，其中概率模型依赖于无法观测到利用 som 包中的自组织映射分析方法 (SoM)对样品进行聚类分析。 (3)在方差的基础上选择前 100个数据，执行上面所述的隐变量。最大期望算法经过两个步骤交替进行计算，第一的各种聚类分析方法。注意在数据的选择过程中没有使用任步是计算期望 (E)，也就是将隐藏变量象能够观测到的一样包含在内，从而计算最大似然的期望值；另外一步是最大化 (M)，也就是最大化在 E步上找到的最大似然的期望值从而计算参数的最大似然估计。M 步上找到的参数然后用于另外一个 E 步计算，这个过程不断交替进行。对于信息缺失的数据来说， EM 算法是一种极有效的工具。 3 R在 EM 算法中的应用何同样品有关的信息。statgnames功能能够根据选择的统计量将基因排序，在本例中统计量就是方差。 3．2 用 cbind0和 rbindO构建分块矩阵可以利用 R 中的函数 cbind0 和 rbindO 把向量和矩阵拼成一个新的矩阵。概略地说，cbind()把矩阵横行地合并成一个大矩阵 (列方式 )，而 rbindO 是纵向合并 (行方式 )。在命令中： · + ”+ “+ 一+ ··+ ”+ ”+ ”+ *+ 一+ 一—+一一+ 一十一—■卜“+ ”+ ”—+一一--—卜 ”— ●一一—■一一—-+一”—+一-—·+一u—-·卜 ”—-·卜 ”—+一”—+-”— 卜_-．——●一”—-—卜一—-+一”+ *—+一一—+一 ··—-●一_ —·-一- 3．2设计方法的应用灵活使用。功能测试或是软件测试更多的参考和依据是《软在功能测试中为了提高测试覆盖面，多采用几种测试用件需求说明书》和《数据规格说明书》，尽早地加入到项目中对例设计方法结合使用。一般情况下：于测试质量的提高和软件质量的提高会有很大的帮助。 (1)页商3I{i局检查：场景法； (2)页面元素校验：等价类划分法、边界值分析法、正交法、分类树法等： (3)功能检查：等价类划分法、边界分析法、错误推测法、场景法、因果图法、判定表法、组合测试法、花瓣法、最长测试法、最少测试法、异常测试法、肥皂剧测试法、快递测试法等。 4 结语软件测试用例设计的质量和效果在一定程度上直接影响了测试过程韵开展和最终的测试结果。测试用例设计方法的参考文献： [I】惠特克．探索式软件测试 [M】．北京：清华大学出版社，2010 [2] 顾海花．软件测试技术基础教程[M]．北京：电子工业出版社，2011 [31 马均飞，郑文强．软件测试设计[M 北京：电子工业出版社， 2011 [4】陈能技，软件测试技术大全【M] E京：人民邮电出版社，2011 作者简介：梁彦 (1985一)，女，重庆人，助理工程师，研究方向为使用方法和组合很多，在测试用例的设计和执行过程中可以软件测试。 6

信息通信李欢：R语言与 EM 算法 >X (_cbind(arg l，arg _ _ 2，arg _ 3，…) 索引最有效。 cbind()的参数要么是任何长度的向量，要么是列大小一 3．4 模式和长度致的矩阵，也就是有一样的行数。结果将是一个合并 arg 1， arg 2 的列形成的矩阵。 _ … ． R操作的实体在技术上来说就是对象。如实数或复数向量，逻辑向量和字符串向量等对象属于“原子 ”(atomic)结构的如果 cbind()的参数中有一些比其他矩阵参数的列长度短对象，因为它们的元素都是一样的类型或模式，R 的对象类型的向量，它们将会被循环使用以吻合矩阵的列长度。(在没有矩阵的情况下，吻合其中最长的向量的长度) 包括数值型 (numeric)，复数型 (complex)，逻辑型 (1ogica1)，字符型 (character)~1原味型 (raw)。向量必须保证它的所有元素函数 rbind()对行进行类似的操作。其中任何向量参数都是一样的模式。因此任何给定的向量必须明确属于逻辑性，会被当作行向量且可能被循环使用。数值型，复数型，字符型或者原味型。(这里有个特定的例外就假定 X1和 X2有一样的行数。下面的命令会把它们的列是“值 ”为 NA 的元素，实际上有好几种形式的 NA。)注意空向合并以得到矩阵 x，同时要求起始列都是 1 量也有自己的模式。例如，空的字符串向量将会被显示为 char- >X <-cbind(1，X1，X2) acter(0)，空的数值向量会显示为 numeric(O)。 rbind()或者 cbindO返回值常常是矩阵形式。因此，cbind R 同样操作被称为列表的对象。这种对象在 R 里面是一 (x)和 rbind(x)可能是把向量 X分别转换成列或者行向量最简种列表 (1ist)模式。这些是可以为任何模式的对象的有序序列。单的方法。列表被认为是一种 “递归 ”结构而不是原子结构，因为它们的 3I3 用 R 的函数 apply()处理不规则数组元素可以用它们各自的方式单独列出。假定我们有一组数据并且保存在另外一个向量中另外两种递归结构是函数 (function)和表达式 (ex． >incomes<-c(60，49，40，61，64，60，59，54，62，69，70，42，56， pression)。构成 R系统一部分的函数对象以及其他类似的用 61，61，61，58，51，48，65，49，49，41，48，52，46，户定义的函数对象都将在后面的内容中深入讨论。表达式对 59，46，58，43) 象是 R 的高级部分，不是本文档的重点，我们只是在讨论 R统为计算样本中平均收入，我们可以用函数 apply()：计建模中的公式 (formulae)时间接地提一下。 >incmeans<-apply(incomes．tef,mean) 一个对象的模式 (mode)是该对象基本要素的类型。这这将给出一个均值向量。各个元素都用对应的水平名字是专门用来描述一个对象 “特征 ”(property)的术语。另外标记了。一个所有对象都有的特征是长度 (1ength)。函数 mode(ob． act nsw nt qld sa tas vic w a ject)和 length(object)可用于任何数据对象以得到其模式 44．500 57．333 55．500 53．600 55．000 60．500 56．000 52．250 和长度 3。函数 apply()将一个函数(这里是 mean())用于第二个参数一个对象更进一步的特征常常通过 attributes(object)得 1(这里是 tel')定义于第一个参数 (这里是 incomes)上得到的所到，具体参见 Gettingand settingattributes，正因为这样，模式和有组。此时，各个组的数据好像是独立的向量。得到的结果长度又叫做一个对象的“内在属性 ”。例如，如果 z是一个长为向量长度和因子的水平数一致。 100的复数向量，那么命令 mode(z)就会得到字符串 ”complex” 假定我们进一步想计算每个对象的的标准误差，我们用 R 而 length(z)对应的是 100。函数来计算任一给定向量的标准误差。既然已经有内置函数 R 可以在任何需要的时候对模式进行转换。 (当然，有些 var()计算样本方差，这个函数可以在一行写完，并且有一个时候没有必要。)例如：、参数等待赋值： >Z<．0：9 >stderr<．fimction(x)sqrt(var(x)／length(x)) 我们可以进行如下转换 >incster<一fapply(incomes，statef,stderr) j >digits<-as．character(z) 值分别为： > incster 这样，digits就是一个字符向量 c(”0”，”1”，”2”… ．，”9”)。我们可以再一次强制转换，或者说模式改变，以重建数值向量： act nsw nt qld satas vic w a >d<一as．integer(digits1 1．5 4．3102 4．5 4．1o6：i 2．7386 0．5 5．244 2．6575 现在 d和 Z就一样了。有一系列类似 as．something()的函作为一个训练，你可能想计算每个对象平均收入的 95％数，这些函数主要用于对象模式的强制转换，或者赋予某个对信度区间。于是你可以再次使用 tapply()和能得到样本量的象一些先前没有的功能。读者可以参考不同的帮助文件以熟函数 length()，以及能得到 t．分布的分位数的函数 qtO。函数悉它们。 tapply()还可以用来处理一个由多个分类因子决定的向量下标总之，EM 算法，不保证全局最优解，得到的是局部最优组合。不过，就在上面最简单的情况中 (仅仅一个变量 )，我们解，所以具体的结果和初始值的位置有关系，如果我们在合适也可以这样考虑这个问题 (复杂因子组合时一样处理 )。向量的位置，我们就可能得到全局最优的解，当然如果只有一个峰中的值可以根据因子中不同的水平分成许多组。函数就是独值那么我们注定得到最优解。因此可以应用 R软件众多的软立地用于这些组。得到的值是这些函数结果的向量，并且以件包联合解决最优解的问题。因子的水平属性标记。因为子类的大小是不规则的，所以向量和作为标签的因子的组合就是我们偶尔会提及的不规则数作者简介：李欢 (1970．)，女，吉林白城人，副教授，研究方向为组 (raggedarray)的一个特例罢了。当子类大小是一致的时候计算机算法。 7

分享到：

赞收藏

资料库

R语言与EM算法.pdf

相关推荐

开发技术

热门标签

最新资料