logo资料库

多组学数据整合方法的最新进展.pdf

第1页 / 共8页
第2页 / 共8页
第3页 / 共8页
第4页 / 共8页
第5页 / 共8页
第6页 / 共8页
第7页 / 共8页
第8页 / 共8页
资料共8页,全文预览结束
中国科技论文在线 http://www.paper.edu.cn 多组学数据整合方法的最新进展 # 张刘超,李爽,李康,王文杰** (哈尔滨医科大学公共卫生学院,哈尔滨市 150081) 摘要:随着高通量检测技术的快速发展以及公共组学数据库的使用,有关组学数据的研究越 来越多。为解决单一组学类型研究的局限性以及结果较单一等问题,发展了一些多组学数据 整合的方法,主要包括三种类型:无监督数据整合,有监督数据整合和半监督数据整合。本 文将系统介绍这三种方法的最新研究进展,每种方法的特点,原理,优缺点,以及在实际研 究中的应用。 关键词:生物统计学;多组学;数据整合方法 中图分类号:R195.1 Recent advances in the methods of integrating multi-omics data Zhang Liuchao, Li Shuang, Li Kang, Wang Wenjie (School of Publish Health,Harbin medical Univarsity,Harbin 150081) Abstract: With the rapid development of high-throughput screening technology and the use of public databases, more and more omics studies have been conducted. In order to use more than one type omics data to explore the biological mechanism, some integrative methods of multi-omics data are developed, which mainly include three types: unsupervised integrative method, supervised and semi-supervised integrative method. In present paper, we will systematically introduce the recent advances of all the three methods, and their characters, principles, advantages and disadvantages, as well as the examples about the application in practical research. Key words: biostatistics; multi-omics; methods of integrating data 5 10 15 20 25 0 引言 近年来,随着高通量检测技术发展及组学数据库的公开使用,产生了大量基因组、转录 组、蛋白质组等组学数据,这些数据中蕴含了大量的信息。传统的基于单一组学数据分析策 30 略,结果较为单一,不能很好解释完整的生物学过程,具有一定的局限性[1],而多组学数据 整合分析能够充分利用样本的各种信息,使得研究结果更加准确可靠[2,3]。因此成为了当前 生物信息学和分子生物学的研究热点。目前多组学数据整合分析方法可分为三大类:无监督 数据整合方法,有监督数据整合方法及半监督数据整合方法。其中,无监督数据整合方法, 主要包括矩阵分解法,基于相关法和基于网络法;有监督数据整合方法,主要包括基于网络 35 模型法和多核心学习方法;半监督数据整合方法主要有基于图像学习法。本文对上述多组学 数据整合方法作一综述,为高维组学数据研究提供便利。表 1 展示了不同类型的数据整合方 法,以及相应的统计方法和特征选择方法。 基金项目:国家自然科学基金(81773551) 作者简介:张刘超(1995-),男 通信联系人:王文杰(1990-),男,主要研究方向:高维组学数据分析方法. E-mail: wangwenjie@hrbmu.edu.cn - 1 -
中国科技论文在线 http://www.paper.edu.cn 40 表 1 多组学数据整合方法 Tab. 1 Methods of integrating omics data 方法 iCluster CCA SNF Network propagation SVM Graph-based learning 分类 无监督 无监督 无监督 有监督 有监督 半监督 统计方法 矩阵分解 典型相关分析 相似网络融合 网络 SVM 特征选择方法 L1 惩罚 L1 惩罚 无 无 推荐使用 CCA 图形整合 无 1 无监督数据整合方法 无监督数据整合方法使用没有标签的变量,通过对含有相似特征的原始数据进行聚类, 再经过可视化方法直观展现,进一步探索未知数据特征,其优点是可以发现样本间的规律和 45 共性,但是由于没有明确的监督信息,其整合结果的准确性有限[4]。 1.1 矩阵分解法 (Matrix Factorization Methods) 矩阵分解法是指对某个给定矩阵做线性转换,将其分解成为两个或以上标准矩阵的乘 积;或是将其分解成为已知矩阵与未知矩阵的乘积。通过对分解后的次级矩阵进行分析,可 以实现对原始矩阵的整合分类。 50 1.1.1 iCluster 算法 iCluster 模型通过假设一个与正则化过程有关的潜变量实现聚类,该潜变量没有非负数 的限制;通过对 Gaussian 潜变量模型施加 lasso 惩罚[5]在稀疏矩阵和特征选择中引入稀疏度, 并使用方差权重惩罚项来实现模型的校正,惩罚项与每种特征的误差有关,特征方差越大, 对系数施加的惩罚越重,反之亦然。最后,对样本的后验均值使用标准的 k-means 聚类,将 55 样本分配到相应的聚类集群中。 假设 n 个样本,含有 M 个组学数据集(如 mRNA,miRNA 和 DNA 甲基化数据), ( )表示含有 个特征的第 m 个数据集;整合数据集 ,是一个 的矩阵。可以将 iCluster 看作是低阶 近似因子模型,潜在回归模型为: 60 , (1) 其中,Z 是一个 的矩阵,行表示潜变量,列表示样本,假定各样本相互独立且服 从标准正态分布; 是残差矩阵, 是用来表示特征强度和潜在变量关系程度的系数 矩阵。多元条件正态分布为: (2) 65 其中 , 。通过施加 lasso 惩罚对 进行稀疏化, 惩罚的全对数自然函数为: - 2 - ()mX1mMmp(1)(2)()(,,,)TTTMTXXXX()1Mmmpn()()()mmmXBZE1mMln()mE()mB()()()|~(,)mmmXZNBZ1mM()()221(,,)mmpdiag()mB1L
中国科技论文在线 http://www.paper.edu.cn (3) 其中 是一个 , 矩阵, 。有效潜变量的个数为 l,样本集 70 群个数为 K,l=K-1。接着,使用期望最大化算法估计 和 。最终,对样本的后验均值应 用 k-means 算法实现对样本的聚类。 iCluster 算法的优点是在处理矩阵分解时自动显示不同组学资料的特定来源和一致性信 息。但也有两个主要缺点:i)在特征选择过程中,iCluster 没有使用不同组学数据的先验知识; ii)不管样本的特征如何,所有的样本都会被分配到各个集群,使得聚类结果的准确性和生 75 物解释能力有限。Shen [6]等人使用 iCluster 方法对肺癌的拷贝数和基因表达数据进行整合聚 类分析,发现 4 种亚型,而且染色体 8p 缺失和 EGFR 突变在肺癌发生中起重要作用;Shen[7] 等人使用 iCluster 对 TCGA 的成胶质细胞瘤的拷贝数,甲基化和基因表达数据进行整合聚类, 发现 3 种亚型。 1.2 基于相关分析的方法 80 1.2.1 典型相关分析 (Canonical correlation analysis,CCA) 假定向量 x 包含 p 个自变量,向量 y 包含 q 个相应的协变量;X 和 Y 分别表示 n 个样 本的 x 和 y 信息。对 X 和 Y 进行均值为 0,方差为 1 的标准化。A 为根据自变量先验知识 定 义 的 邻 接 矩 阵 , L 为 相 应 的 Laplacian 矩 阵 。 CCA[8] 旨 在 找 出 两 个 投 影 方 向 : 85 (4) 其中, 和 , 是协方差矩阵, 是协方差交叉矩阵。这种最大化等价于满足 条件下 。 是第一对标准向量,而 和 是第一对潜变量, 则是第一个标准相关系数。使用样本信息的交叉协方差矩阵和协方差矩阵 90 分别表示 , 和 ,进而估计 。当维度 p 和 q 较高时,需要添加正则 化过程来保证获取 最优化问题的唯一解。 CCA 可以识别两个紧密相关的数据集的线性组合,并且提供工具来总结两个数据集之 间的相互依赖关系;但是 CCA 不能用于变量筛选,特别是当变量的维度较高时,由于协方 差矩阵的奇异值,不能直接应用 CCA。Safo[9]等人在 CCA 基础上整合转录组学和代谢组学 数据,为心血管疾病的研究提供有效的生物学信息。 95 - 3 - 111log((,))log(||)()()()()222TTpnLBtrXBZXBZtrZZPB(1)(2)()(,,,)TTTMTBBBB()1()Mmmpl()()111()||mMlpmmjiijPB()()()mmmijplBB11u,vpq11u,vu,vuvu,v)argmax(u,v)argmax(uu)/(vv)TxyTTTTxxyyCorrxy(uxxvyyvxy1Txxuu1Tyyvvu,vmaxuvTxy11u,v11uTx11vTx111(,)Corr,,TTTXYXXYYuxxvyyvxy11u,vu,vmaxuvTxy
中国科技论文在线 1.3 基于网络法 http://www.paper.edu.cn 1.3.1 三级相似网络融合(Similarity Network Fusion , SNF) SNF 先对每种数据类型构建相应的样本网络,然后将样本网络整合成一个综合网络, 从而整合不同数据类型[10]。假设 n 个样本,m 种测量数据;图形 G=(V,E)表示病人相似 100 网络,图中点 V 表示样本 ,线 E 表示样本间的相似度, 表示图形 G 中 的邻接样本, 表示病人 和病人 之间 Euclidean 距离: (5) 表示 和 之间的相似性权重,参数 用于调整算法,一般为[0.3,0.8]。 105 为了融合相似矩阵,定义一个包含全部点 V 的标准化权重矩阵 ,使用 KNN (K-nearest neighbor)算法计算局部亲密度 , (6) , (7) KNN 算法[11]计算某样本的 k 个邻近样本中各类别的权重并将该样本分配到权重最大的 类别中,并定义非邻接点间的相似度为 0。P 代表每个病人与所有病人之间的相似性信息, 110 S 代表每个病人与 k 个最相似病人的相似性信息。 假设两种数据类型(m=2),SNF 的关键步骤是在多次迭代过程中不断更新每种数据类 型的相似矩阵。 和 分别是第 t 次迭代后,第 1 种和第 2 种数据类型的状态矩阵,t 次迭代之后,所 , (8) 115 有的状态矩阵的计算为: 。 可用于特征选择和分类,但更多地是用 于聚类和预测。在每一次迭代之后,使用等式(7)对 和 进行标准化,由此,1)确 保在 SNF 的所有迭代过程中,病人总是与自身最相似;2)确保融合网络含有所有样本,有 助于使用最终网络对样本进行分类和聚类;3)可以使 SNF 更快的收敛。最后使用等式(8) 可以对数据类型的数量 m 进行扩展。 120 SNF 可用于整合任意类型的离散数据(二分类和多分类)和连续数据,进行样本聚类 和标签预测。Wang[10]等人使用 SNF 构建病人网络,通过整合 mRNA 表达,DNA 甲基化, miRNA 表达数据,识别出具有不同生存谱的疾病亚型,并对病人的生存风险进行预测。Li[12] 使用 SNF 对慢性阻塞性肺病(COPD)病人的 mRNA,microRNA 以及蛋白质组和代谢组数 据进行分析,可以识别出 COPD 的多种分子亚型,且准确率较高。 - 4 - 12,,,nxxxiNix(,)ijxxixjx2,(,)(,)expijijxxWij(,)Wijixjx,((,))((,))(,)3iijjijijmeanxNmeanxNxx(,)Pij(,)Sij(,),2(,)(,)1/2,kiWijjiWikPijji(,),(,)(,)0,iikNWijjNWikSijotherwise(1)(1)(2)(1)1()TttPSPS(2)(2)(1)(2)1()TttPSPS(1)1tP(2)1tP(1)(2)()2cttppP()cP(1)1tP(2)1tP
中国科技论文在线 http://www.paper.edu.cn 125 2 有监督数据整合方法 与无监督数据整合方法不同,有监督数据整合方法依据样本的表型标签(疾病或正常), 并调用机器训练方法来评估模型。有监督数据整合方法是通过训练组学数据中已知标签的变 量来实现的。下面将介绍典型的基于网络法和多内核法。 2.1 基于网络法 130 2.1.1 网络增殖(Network propagation) 假定两种类型的数据:细胞突变矩阵 M 和差异表达矩阵 D,使用 表示矩阵 A(M 或 D)的行标签, 表示矩阵 A 的列标签,即 表示体细胞突变数据中的基因集。 以突变矩阵为例[13],当样本 i 的 j 基因发生突变时,定义 ,否则 给定网络 ,V 表示网络中的点,E 是表示点与点间交互作用的线, 。 表 135 示交互的权重, ;假定先验向量 ,平滑函数 可以解释网 络中每个节点的先验知识。使用 Laplacian 标准化方法[14]得到标准化权重 ,构建 w 的 矩阵 W 和对角矩阵 ,标准化权重 。在 多次迭代过程中使用 计算 F, 。在 t 次迭代过程中不断更新 F: (9) 140 直至收敛,即 。使用 和 表示每个样本 的先验知识 向量, 和 表示增殖矩阵: (10) 在上述迭代过程中,使用 和 可以计算得出相应的增殖向量 和 ,增 殖向量 是增殖矩阵 的行,其中 , 。依据增殖突变和差 145 异表达频率,对增殖矩阵进行特征选择;增殖突变和差异表达频率越高,越有可能被筛选出 来,最先筛出的特征最可能与研究目的有关。接着对筛选出的特征进行 logistic 回归分析, 使用 logistic 回归模型研究基因和癌症的相关的概率,找出与癌症显著相关的基因: (11) 150 利用网络增殖算法对多种组学数据进行整合分析,可以消除基因与疾病联合作用产生的 混杂,预测的准确度高,性能好;但是,该方法需要输入数据的先验知识,限制了应用范围; 而且,如果先验知识获取范围不充分,会导致研究性能下降。Vanun[13]等人用网络增殖算法 识别出与前列腺癌,阿尔兹海默症和二型糖尿病有因果关联的基因,为进一步研究提供了候 选基因和蛋白质复合物;Peng[15]等人对胆囊癌的基因表达,miRNA 表达,CNV 数据构建的 异质网络进行增殖分析,发现胆囊癌相关基因,如 AKT1,PTEN,TSC1,PIK3CA 等。 - 5 - ()RA()CA()CM[,]1Mij[,]0Mij(,,)GVEw(,)wuvuvE:[0,1]YV()FvvV'w||||uv[,],jiiWjj,'1/21/2WW'W(0)FY()'(1)(1)ttFWFY()(1)62||||10ttFF()MiY()DiY()iRApMpD()[,][]0AiAivYv(),ifvCAVotherwise()MiY()DiY()MiF()DiF()AiFpA()()pRARA()pCAV011log1nnpxxp
中国科技论文在线 http://www.paper.edu.cn 155 2.2 多核心学习 2.2.1 支持向量机(Support Vector Machine,SVM) SVM 最初由 Boser [16]提出,基于结构风险最小化原则,使用核函数将输入数据映射到 特征空间 F 中,在特征空间中寻找一个超平面,使得各点到该超平面的距离最大,根据超平 面将输入数据分为两个类别。 160 SVM 使用核函数将训练向量 映射到一个 n 维的特征空间;由于特征空间的嵌入项通 常是隐性定义的,需要识别嵌入项的内积。对于一对数据 和 ,其嵌入项为 ,则其核函数为: ;嵌入项的内积为: 和 。 任何一个对称的半定义函数都是一个有效的内核函数,对应着特征空间的某些内积。评估所 有对数据点的内核可以生成一个对称的正半定矩阵,即核矩阵。核函数方法通过计算核矩阵 165 进行数据分解。SVM 在特征空间 F 内找出一个线性判别式,使得阳性分类与阴性分类结果 之间的间距最大化,完成对原始数据的分类,该判别式为: ,其中 , 。给定标记样本 , 表示相应的标签。 通过使用 1-范数软边缘 SVM 算法[17]可以解决 w 和 b 的最优化问题,使得阳性与阴性 分类结果之间的距离最大,且允许结果有错误分类: 170 subject to , (12) 其中,C 是用于平衡边缘误差的正则化参数,权重向量 , 可通过 下式求出: subject to , (13) 其中, ,diag(Y)是一个对角矩阵,其实体对应于 y 的组分。未标记的数 175 据项 之后可以通过计算如下线性函数进行分类: (14) 如果 是正值,那么将 归为阳性类;如果 是负值,那么将 归为 阴性类;通过多次迭代可以实现对原始输入数据的分类。 SVM 具有准确度高,灵活性好,稳健性强,可以处理大规模数据集,避免过拟合等优 180 点;但是算法较为复杂,计算过程耗时较长。Yan[18]等人使用 SVM 算法整合基因型,基因 表达和临床数据(血压,抽烟,年龄等),探索高血压的病因;Kim[19]等人使用 meta-SVM 算法分析 TCGA 乳腺癌的多种组学数据,发现 ATP-binding cassette 受体通路与乳腺癌有关。 3 半监督数据整合 半监督学习(SSL,sime-supervised learning)方法是有监督和无监督方法的中间形式, - 6 - ixixjx()ix()jx(,)()()TijijKxxxx12()()xx,()()TfxwxbwFb11(,),,(,)nnnSxyxy12(,,,)nyyy,,1minnTiwbiwwC[()]1Tiiiywxbn01,,iin,1()niiiwximax2()()TTediagYKdiagY0C0TY12(,,,)TnYyyynewx1()()(,)nTnewnewiinewifxwxbKxxb()newfxnewx()newfxnewx
中国科技论文在线 http://www.paper.edu.cn 185 使用标记和未标记样本的学习方法,大体可分为三种:生成模型,低密度分离算法和基于图 形方法。SSL 不仅具有稳定的数学背景,与内核法有关,而且可以实现结果的可视化。大多 数的半监督数据整合都是基于图形法,这里主要介绍这种类型[20]: 3.1 基于图形学习(Graph-based learning) 使用 表示全部数据集,其中 表示有标签输入数据, 190 相应的标签为 ; 表示无标签输入数据。假定加权关联 图 ,向量 E 是图中的线,表示点与点之间的权重(关系);向量 V 表示图中对 应于上述 n 个数据的点,其中点 是标签 所标记的点;点 表 示 无 标 签 的 点 。 SSL 可 以 推 论 无 标 签 输 入 数 据 相应的标签 ,显然 。 195 1)对图中的线(权重)构建一个 的对称矩阵 W: (15) 其中, 和 表示图中的节点; 是表示长度范围的超参数。使用 F 表示一系列的 的 非负矩阵,某个矩阵 表示 的一种确定的分类,为 分配相应的标签 。定义一个 的矩阵 ,如果 被标记为 200 ,则 ;否则, 。 2)构建矩阵 ,其中 D 是一个对角矩阵,其元素 等价于 W 中第 i 行 的总和。然后,对 进行迭代运算,直到相似矩阵 F 收敛。其中, 是预先设定的常数,取值范围是(0,1)。 3) 使 用 表 示 序 列 的 极 值 , 为 每 个 节 点 分 配 一 个 标 签 205 。由于 且 S 的特征值范围是 : (16) 之后,使用 计算分类矩阵。经过上述步骤之后,所有无标签的输入数据 都将对其进行相应的标记。 基于图形的 SSL 算法不仅具有稳定的数学背景,可以实现结果的可视化,而且在实际 210 运用中均表现出良好的性能;同时避免了对标记样本数量的要求,克服无监督学习准确性差 的缺点;但是,该方法的使用需要大量的专业知识,否则将很难获得满意的学习结果。Zhao[21] 等人将基于图形的半监督学习方法用于临床阿尔兹海默症患者的诊断研究。 - 7 - (,)lnXXX12,,,llXxxx12,,lyyy12,,,nllnXxxx(,)GVE1,2,,Ll12,,lyyy1,2,,Ulln12,,,nllnXxxx12,,llnyyylnnn22||||exp20ijijxxWifijifijixjxnl12,,,TTTTnFFFFF(,)lnXXXixargmax.ijlijyxFnlYFixiyj1ijY0ijY1/21/2SDWD(,)ii(1)()(1)FtSFtYFFtixargmax.ijijCyxF0<<1(1,1)110lim()lim()(1)lim()ttiinnnFFtSYSY1(1-)FSY12,,,nllnXxxx
中国科技论文在线 http://www.paper.edu.cn 4 结论 在当今高通量检测技术快速发展的背景下,越来越多的组学数据被获取,针对单一组 215 学研究结果单一,外推受限等问题,发展了多组学数据整合方法,通过整合多种组学数据, 不但充分利用现有数据信息,而且可以研究不同组学之间的关联,探索整个生物学过程,研 究结果更加准确合理。本文所述的三种多组学数据整合方法中,无监督方法,无需数据的先 验信息,通过可视化直观展示结果,所以该方法更为简便,适用范围更广,但同时也导致其 结果的准确性有限;有监督方法则需要样本数据的先验信息,使用样本的先验信息对样本进 220 行整合,准确性高,但是计算量大,耗时较长;半监督方法则可以整合有标签的样本和无标 签的样本,通过对有标签样本的训练,进一步推测出无标签样本的标签,充分利用样本数据, 准确性较高。 [参考文献] (References) 225 230 235 240 245 250 255 260 265 [1] De R S, Marchal K. Advantages and limitations of current network inference methods.[J]. Nature Reviews Microbiology, 2010, 8(10):717. [2] Weinstein J N, Collisson E A, Mills G B, et al. The Cancer Genome Atlas Pan-Cancer Analysis Project[J]. Nature Genetics, 2013, 45(10):1113-1120. [3] Martin Bobrow, Zhao Shancen. International network of cancer genome projects. Nature[J]. Nature, 2010, 464(7291):993-998. [4] 邱德红, 陈传波. 融合无监督和监督学习策略生成的多分类决策树[J]. 小型微型计算机系统, 2004, 25(4):555-559. [5] Shen R, Mo Q, Schultz N, et al. Integrative Subtype Discovery in Glioblastoma Using iCluster[J]. Plos One, 2012, 7(4):e35236. [6] Shen R, Olshen A B, Ladanyi M. Integrative clustering of multiple genomic data types using a joint latent variable model with application to breast and lung cancer subtype analysis[M]. Oxford University Press, 2009. [7] Shen R, Mo Q, Schultz N, et al. Integrative Subtype Discovery in Glioblastoma Using iCluster[J]. Plos One, 2012, 7(4):e35236. [8] Chen, Jun, Bushman, Frederic D, Lewis, James D, et al. Structure-constrained sparse canonical correlation analysis with an application to microbiome data analysis[J]. Biostatistics (Oxford,England), 2013, 14(2):244-258. [9] Safo S E, Li S, Long Q. Integrative analysis of transcriptomic and metabolomic data via sparse canonical correlation analysis with incorporation of biological information[J]. Biometrics, 2017. [10] Wang B, Mezlini A M, Demir F, et al. Similarity network fusion for aggregating data types on a genomic scale.[J]. Nature Methods, 2014, 11(3):333-337. [11] Li C X, Wheelock C E, Sköld C M, et al. Integration of multi-omics datasets enables molecular classification of COPD.[J]. European Respiratory Journal, 2018, 51(5):1701930. [12] 陈乾, 胡谷雨. 一种新的 DTW 最佳弯曲窗口学习方法[J]. 计算机科学, 2012, 39(8):191-195. [13] Ruffalo M, Koyutürk M, Sharan R. Network-Based Integration of Disparate Omic Data To Identify "Silent Players" in Cancer[J]. Plos Computational Biology, 2015, 11(12):e1004595. [14] Peng C , Li A , Wang M . Discovery of Bladder Cancer-related Genes Using Integrative Heterogeneous Network Modeling of Multi-omics Data[J]. Sci Rep, 2017, 7(1):15639. [15] Knowles M A, Platt F M, Ross R L, et al. Phosphatidylinositol 3-kinase (PI3K) pathway activation in bladder cancer[J]. Cancer Metastasis Rev, 2009, 28(3-4):305-316. [16] Boser B E. A training algorithm for optimal margin classifiers[C]// The Workshop on Computational Learning Theory. 1992:144-152. [17] Lanckriet G R, De B T, Cristianini N, et al. A statistical framework for genomic data fusion.[J]. Bioinformatics, 2004, 20(16):2626-35. [18] Yan K K, Zhao H, Pang H. A comparison of graph- and kernel-based -omics data integration algorithms for classifying complex traits[J]. Bmc Bioinformatics, 2017, 18(1):539. [19] Kim S, Jhong J H, Lee J, et al. Meta-analytic support vector machine for integrating multiple omics data:[J]. Biodata Mining, 2017, 10(1):8. [20] Han K, Zheng Y, You Z H, et al. A semi-supervised learning approach to predict synthetic genetic interactions by combining functional and topological properties of functional gene network[J]. Bmc Bioinformatics, 2010, 11(1):1-13. [21] Zhao M, Chan R H, Chow T W, et al. Compact Graph based Semi-Supervised Learning for Medical Diagnosis in Alzheimer's Disease.[J]. IEEE Signal Processing Letters, 2014, 21(10):1192. - 8 -
分享到:
收藏