logo资料库

随机森林变量重要性评分及其研究进展.pdf

第1页 / 共9页
第2页 / 共9页
第3页 / 共9页
第4页 / 共9页
第5页 / 共9页
第6页 / 共9页
第7页 / 共9页
第8页 / 共9页
资料共9页,剩余部分请下载后查看
本中国科技论文在线 http://www.paper.edu.cn 随机森林变量重要性评分及其研究进展# 杨凯,侯艳,李康** (哈尔滨医科大学公共卫生学院,哈尔滨 150081) 5 摘要:随机森林变量重要性评分(VIM)在高维组学数据生物标志物的筛选中有广泛应用, 然而由于其有多种算法且适用条件不同,其结果也可能存在较大差异,在实际应用中仍然存 在很多问题。本文首先介绍随机森林的基本原理和常规 VIM 的计算方法,并分析了其优缺 点和显著性检验方法及问题,然后介绍了 VIM 计算方法的改进及在实际组学数据分析中的 应用。最后给出随机森林 VIM 在方法研究和应用中所面临的挑战和下一步的研究方向 关键词:医学统计学;随机森林;变量重要性评分;Gini 指数;OOB 错误率 中图分类号:R195.1 10 15 20 25 Variable Importance Measure of Random Forest and Its Progress YANG Kai, HOU Yan, LI Kang (Public Health School, Harbin Medical University, Harbin 150081) Abstract: Variable importance measure(VIM) of random forest is widely used in variable selection of high dimensional omic data. However, the results may also be quite different because of its variety of algorithms and different application conditions. There are still many problems in practical applications. This paper firstly introduces the basic principle of random forest and the calculation method of conventional VIM, analyzes its advantages and disadvantages, and explains the significant test methods and problems. This paper then introduces improvements of conventional VIM and applications in practice omics data analysis. Finally, it gives the challenges and the directions of research on developments and applications of VIM. Key words: medical statistics; random forest; variable importance measures; Gini index; OOB error 0 引言 30 随机森林(random forest,RF)由 Breiman 等人在 2001 年提出[1],目前已经发展成为数 据挖掘、生物信息学等领域最常用的工具之一。RF 具有很高的预测准确率,对异常值和噪 声有很强的容忍度,能够处理高维数据(变量个数远大于观测个数),有效地分析非线性、 具有共线性和交互作用的数据,并能够在分析数据的同时给出变量重要性评分(variable importance measures, )。这些特点使得 RF 特别适用于高维组学数据的研究,即在对 35 疾病进行分类的同时通过 值筛选出潜在的生物标志物,研究疾病发生、发展的生物学 机制。然而,由于在实际中由 RF 筛选变量使用的统计量不同,可能会使结果有较大的差异, 为此本文在简单介绍 RF 筛选变量的基础上,拟针对目前随机森林变量重要性评分的不同计 算方法和新近提出的改进方法,说明其在高维组学数据分析中的应用。 基金项目:高等学校博士学科点专项科研基金(20122307110004);国家自然科学基金(81473072) 作者简介:杨凯(1989-),男,硕士研究生,主要研究方向:高维组学数据分析模型与方法 通信联系人:李康(1957-),男,教授,主要研究方向:高维组学数据分析模型与方法,临床试验统计模 型与方法. E-mail: likang@ems.hrbmu.edu.cn - 1 - VIMVIM
本中国科技论文在线 1 随机森林的基本原理 http://www.paper.edu.cn 40 RF 是一种基于分类树算法的组合分类器,它通过自助法(bootstrap)重采样技术,从 原始训练集中有放回地重复随机抽取 个样本数据集生成新的训练自助样本集合(每个样本 量为 ),然后根据自助样本集生成 个分类树组成 RF,新数据的分类结果按分类树投票 多少形成的分数而定。 RF 中的每一棵分类树为二叉树,根节点包含全部训练自助样本,按照一定的原则,在 45 每个节点从一组随机选取的变量中选择使分枝后节点“不纯度”最小的变量作为分枝变量, 分裂为左节点和右节点,它们分别包含训练数据的一个子集,分裂后的节点按照同样规则继 续分裂,直到满足分枝停止规则而停止生长,具体过程见图 1。“不纯度”的衡量标准包括 Gini 不纯度、熵和错误率等。变量筛选使用 统计量。 原始训练样本 Bootstrap Resampling 样本 1 样本 2 样本 3 样本 分类树 1 分类树 2 分类树 3 分类树 分类树 投票决定最优分类 50 图 1 随机森林分类器原理示意图 Fig. 1 Schematic diagram of random forest classifier 2 随机森林常规的变量重要性评分 现假定有变量 ,需要计算出 M 个 得分统计量。RF 常规的 计 算方法分为两种,即根据 Gini 指数和袋外数据(OOB)错误率计算得到[2-3],变量 的得 55 分统计量分别用 和 表示。 2.1 Gini 指数 统计量 表示第 个变量在 RF 所有树中节点分裂不纯度的平均改变量。Gini 指 数的计算公式为 - 2 - nbnVIM12,,,MXXXLVIMVIMjX()GinijVIM()OOBjVIM()GinijVIMjnin
本中国科技论文在线 http://www.paper.edu.cn (1) 60 为自助样本集的类别数, 为节点 样本属于第 类的概率估计值,当样本为二分类数 据时( ),节点 的 Gini 指数为 为样本在节点 属于任意一类的概率估计值。 变量 在节点 的重要性,即节点 分枝前后 Gini 指数变化量为 (2) 65 70 和 分别表示由节点 分裂的两新节点的 Gini 指数[4]。 如果变量 在第 棵树中出现 次,则变量 在第 棵树的重要性为 (3) 变量 在 RF 中的 Gini 重要性定义为 其中, 为 RF 中分类树的数量。 2.2 OOB 错误率 (4) (5) 的定义为:在 RF 的每棵树中,使用随机抽取的训练自助样本建树,并计算袋 外数据(OOB)的预测错误率,然后随机置换变量 的观测值后再次建树并计算 OOB 的 75 预测错误率,最后计算两次 OOB 错误率的差值经过标准化处理后在所有树中的平均值即为 变量 的置换重要性( )[1]。 变量 在第 棵树的 为 (6) 其中, 为第 棵树 OOB 数据的观测例数, 为指示函数,即两值相等时取 1,不等时 80 取 0; 为第 个观测的真实结果, 为随机置换前第 棵树对 OOB 数据第 个观测的预测结果, 为随机置换后第 棵树对 OOB 数据第 个观测的预测结果。 当变量 没有在第 棵树中出现时, 。 - 3 - 1ˆˆ(1)KmmkmkkGIppKˆmkpmk2Kmˆˆ2(1)mmmGIppˆmpmjXmm()mlrGinijmGIGIGIVIMlGIrGImjXiMjXi()1()MGinijmmGiniijVIMVIMjX()1()1nGiniijiGinijVIMnVIMn()OOBjVIMjXjX()OOBjVIMjXi()OOBjVIM,11()()()iioojnniippppppiiooOOBjIYYIYYnnVIMinoi()Ig{0,1}pYp{0,1}ipYip,{0,1}jipYipji()0OOBijVIM
本中国科技论文在线 变量 在 RF 中的置换重要性定义为 http://www.paper.edu.cn (7) 85 其中, 为 RF 中分类树的数量。 2.3 常规变量重要性评分的优缺点 在数据挖掘中估计变量重要性时有着广泛的应用。当变量为连续型变量且互不 相关时, 的估计是无偏的;当信噪比较低时, 的准确性也高于 , 因此 有更高的稳定性[5]。 90 然而,当同时存在连续变量和分类变量或者分类变量的水平数不同时, 估计则 不够准确[6]。由于 个水平的分类变量在节点处可以有 种分割,连续变量在节点处 可以有 种分割( 为样本量),在备选分割较多时,即使变量没有分类作用,也可能 使 Gini 指数降低,从而更容易被选为分枝变量,即 被高估。实际上,由于 Gini 指 数的计算问题,水平数多的分类变量的 Gini 指数降低会大于水平数少的分类变量。当分类 95 变量水平数相同时,如果不同变量的水平间差别不同,容易过高估计水平间差别大的变量的 [7-8]。在 SNP 数据分析中,Nicodemus 等人指出当所有 SNP 都不具有分类能力时, 不相关 SNP 的 高于高度相关 SNP 的 [9]。 事实上, 在实际中的应用范围更加广泛。由于 是通过 OOB 数据计算 的,因此可以看作变量具有的分类能力,没有分类能力的变量在观测值置换前后的 OOB 错 100 误率不会发生改变,即数学期望 。此外, 不仅能够衡量变量单独 的分类能力,还能够衡量变量间交互作用的分类能力[10]。 当同时存在连续变量和分类变量或者分类变量水平数不同时,并不会影响 的 准确性[6]。 是通过随机置换变量观测值前后 OOB 错误率的差值计算的,即使没有 分类作用,水平数多的变量也更容易被选为分枝变量,但置换前后并不会影响 OOB 错误率, 105 同时会使 的变异增大[11]。 在分类数据不平衡时, 的准确性会受到一定影响[12]。例如多数为正常人,无 论变量是否置换,大部分的数据都会被预测为正常,虽然 OOB 错误率受到的影响可能不大, 但却会严重低估所有变量的 。 当单棵树的预测准确率较低时(如 OOB 错误率达到 50%),会低估变量的 [2]。 - 4 - jX()1()nOOBijiOOBjVIMnVIMn()GinijVIM()GinijVIM()GinijVIM()OOBjVIM()GinijVIM()GinijVIMK121K1bb()GinijVIM()GinijVIM()GinijVIM()GinijVIM()OOBjVIM()OOBjVIM()()0OOBjEVIM()OOBjVIM()OOBjVIM()OOBjVIM()OOBjVIM()OOBjVIM()OOBjVIM()OOBjVIM
本中国科技论文在线 http://www.paper.edu.cn 110 当置换前 OOB 错误率已经很大时,置换变量观测值使得 OOB 错误率变大的可能性降低, 从而低估变量的 。 Genuer 等人提出,当没有分类能力的变量与有分类能力的变量相关时,可能低估相关 有分类能力变量的 ,且估计方差变异增加,而此时没有分类能力变量的 则 被高估[13,14]。 115 Amaratunga 等人提出,组学数据中存在大量的噪声变量,当变量数目巨大而具有分类 能力的变量所占比例很小时,RF 建模容易受到大量噪声变量的干扰,使变量的 ( 和 )计算受到影响,变量筛选的结果不可信[15]。 2.4 变量重要性( )的显著性检验 给出了变量的重要性排序,但无法在变量筛选时给出显著性假设检验的阈值。事 120 实上,当所有变量都没有分类能力时, 也会给出变量重要性排序,筛选出不具有分类 能力的变量;而当有分类能力的变量很多时,仅通过变量的排序进行变量筛选,可能漏掉一 些具有分类能力的变量。 Breiman 等人提出通过 值直接计算 的显著性,即 (8) 125 其中, 为 RF 中各棵树 的标准差, 为随机森林(RF)中树的数量[16]。然而, Strobl 等人通过模拟实验表明: 值的检验效能与样本量 及树的数量 有很大的关系,当 样本量 很大而树的数量 小时,检验效能接近于 0[17]。 检验的另一个问题是零假设 不明确。 Altmann 等人[18]和 Wang 等人[19]提出了基于随机置换的检验方法。Altmann 等人通过原 130 始数据计算每个变量的 , 的零分布通过随机置换原始数据分组标签计算的 给出,每个变量 的 P 值通过与零分布的比较得出。Wang 等人则提出新的 计算方 法,给出了最大条件卡方统计量(maximal conditional chi-square,MCC),并通过类似置换 检验的方法估计出 MCC 的经验 P 值。 3 变量重要性计算方法改进 135 由于常规 在计算变量重要性的过程中存在很多缺点,很多学者提出了 的改进 方法。 Díaz-Uriarte 等人使用 OOB 错误率作为最小化准则,使用变量剔除的方法逐步剔除分类 作用最小的变量,最后保留少数变量达到很高的预测准确率。通过模拟实验和 9 个基因微阵 列数据的比较表明,在样本量相同的情况下,该法分类效果优于支持向量机(SVM)等方 140 法[20]。Wu 等人提出递归随机森林的方法,通过 5 个微阵列数据的分析表明,这种方法能够 - 5 - ()OOBjVIM()OOBjVIM()OOBjVIMVIM()OOBjVIM()GinijVIMVIMVIMVIMZ()OOBjVIM()ˆ/(/)OOBjZVIMnˆ()OOBjVIMnZbnbnZ0HVIMVIMVIMVIMVIMVIMVIM
本中国科技论文在线 有效地筛选出疾病相关基因[21]。 http://www.paper.edu.cn 为了解决不同类型变量和变量相关时估计偏性问题,Strobl 等人提出条件推断森林 (conditional inference forest,CIF)算法[5,22],通过分层随机置换的方法调整 值的 大小,当变量类型不同或分类变量水平数不同时,筛选出的变量仍然具有很高的可靠性。当 145 变量相关时,变量筛选的结果也优于 筛选的结果。Meng 等人还提出了一种校正 的方法:变量 的 是在所有树中 的平均值,作者提出只用包含 变量 树的 的平均值计算 [23],这种方法可以提高相关有分类能力变量 的 。 在分类数据不平衡时,RF 对多数类的预测准确率明显高于对少数类的准确率。分类不 150 平衡问题可以在数据水平和算法水平两个水平上解决。在数据水平,可以通过 bootstrap 增 加少数类的样本量或通过抽样减少多数类的样本量使分类数据更加平衡,例如 Chen 等人提 出了“平衡随机森林”的思想,通过少数类的 bootstrap 样本和多数类的样本建立分类树组 成 RF。在算法水平,可以通过增加少数类错分样本的权重建立“加权随机森林”解决预测 准确率的问题[24]。Janitza 等人提出基于 AUC 的变量重要性评分,在每棵树中使用 AUC 替 155 代 OOB 错误率计算变量重要性评分。当分类数据平衡时,与 的筛选结果类似,当 分类数据不平衡时,变量筛选的结果明显优于 [11]。 Yang 等人提出通过变量观测值随机置换前后训练自助样本边缘分布的改变作为变量重 要性的评价标准 [25]。基因表达数据的应用表明,在一些数据集的应用中这种方法优于 和 对变量重要性的评价。 160 Sztendur 等人将部分析因设计的思想用到 RF 的随机置换中,每次置换多个变量,置换 的变量通过部分析因设计决定,变量的重要性通过不同次的置换检验计算得到。结果表明, 通过置换多个变量计算的变量重要性评分优于常规的变量重要性评分,且稳定性更好[26]。 Ishwaran 等人提出变量捕获的方法,通过从数据中随机抽取一个子集和一部分变量构建 RF,选择最小深度阈值作为最初的模型,然后根据最小深度或 的排序将变量逐步增加 165 到最初的模型中,直到模型的联合 统计量稳定为止,并作为最终模型。这种方法可以 用于变量数目巨大而具有分类能力变量比例很低的数据的变量筛选[27-29]。 一些学者还提出了特征加权的方法[30-34]。Nguyen 等人提出新的 RF 算法——xRF。该法 首先使用随机森林的 计算每个变量的重要性评分,然后使用 Wilcoxon 秩和检验区 分具有分类能力和不具有分类能力的变量,再用 检验计算自变量和因变量的相关得分, 170 把具有分类能力的变量分成具有强分类能力和弱分类能力的变量。这里,每个节点的备选分 枝变量通过从强分类能力变量和弱分类能力变量分别抽样组成,这种方法可以避免抽取备选 - 6 - ()OOBjVIM()OOBjVIM()OOBjVIMjX()OOBjVIM()OOBijVIMjX()OOBijVIM()OOBjVIM()OOBjVIM()OOBjVIM()OOBjVIM()OOBjVIM()GinijVIMVIMVIM()OOBjVIM2
本中国科技论文在线 分支变量时的选择偏倚[34]。 http://www.paper.edu.cn Chen 提出“深度重要性”来评价变量的重要性,其思想与 类似,但考虑到变 量在分类树中出现的位置,即越接近根节点说明变量越重要。这种方法成功运用到复杂疾病 175 的危险基因的识别[35]。Hapfelmeier 等人提出存在缺失数据情况下的变量重要性评分方法[36]; Fokoue 等人提出预测错误率下降函数作为变量重要性的得分,新的得分以 0 为界值,得分 大于 0 的具有显著性差异,得分小于 0 的没有显著性差异,这种得分计算方法还可以应用于 其它分类器[37]。 目前,RF 变量重要性评分在基因组学、蛋白组学和代谢组学变量筛选中都有广泛的应 180 用。Botta 等人通过 筛选出 rs11209026、rs931058 和 rs11260562 等克罗恩病相关的 SNP 位点[38];Chang 等人通过 筛选出含有亮氨酸、赖氨酸和丙氨酸等残基的高效抗 病毒二肽(Antiviral peptides ,AVPs)[39];Wittmann 等人通过 筛选出棕榈酰鞘磷 脂、乳酸、腺苷和琥珀酸等膀胱癌的代谢生物标志物[40]。 4 展望 185 RF 已经成为生物信息学等众多领域主要的分析工具之一,由于其灵活、易理解、能处 理复杂数据并给出变量重要性评分等特性,使其成为变量筛选的主要方法之一。 在组学数据的生物标志物筛选中有广泛应用,取得了良好的效果,筛选出对疾病 分类、诊断和机制研究等具有实用价值的生物标志物[41]。但是由于组学数据的变量多、关 系复杂的特性, 在进行变量筛选时仍然不够准确,一些学者也提出了对常规 进行 190 改进或者新的计算 的方法,并通过一些模拟实验和实例数据证明其优越性,但没有根 本解决 在变量筛选时的问题[42],在实际应用中大多数学者仍然使用常规的 。 的显著性检验也是 RF 筛选变量过程中面临的问题。在实际应用中通常使用 或 作为变量筛选的阈值[43-44],但 值的大小并不能绝对地反映变量 对分类的作用,即使所有变量都没有分类作用,也会出现 比较大的变量。一些学者也 195 提出了对 进行检验的方法,但主要是通过简单的 值或随机置换的方法[17-19],仍然存 在很多的问题。 变量筛选一直是组学领域的一个热门研究方向,随机森林的 作为变量筛选的重要 方法虽然存在一定的缺点,但其优良的特性仍然能对组学数据的研究提供巨大的帮助,具有 广阔的发展前景。随着计算机科学和数据挖掘技术的不断发展和完善,更科学准确的随机森 200 林 计算方法有待于进一步研究。 [参考文献] (References) [1] Breiman L. Random Forests[J]. Machine Learning, 2001, 45(1): 5-32. [2] Goldstein B A, Polley E C, Briggs FB. Random forests for genetic association studies[J]. Stat Appl Genet - 7 - ()GinijVIM()GinijVIM()GinijVIM()OOBjVIMVIMVIMVIMVIMVIMVIMVIMVIM1VIM1.5VIMVIMVIMZVIMVIM
本中国科技论文在线 205 Mol Biol, 2011, 10(1): 32. http://www.paper.edu.cn [3] Friedman J H. Greedy Function Approximation: A Gradient Boosting Machine[J]. Annals of Statistics, 2000, 29(5): 1189-1232. [4] Jiang R, Tang W, Wu X, et al. A random forest approach to the detection of epistatic interactions in case-control studies[J]. BMC Bioinformatics, 2009, 10(2):135-135. 210 [5] Calle M L, Urrea V. Letter to the editor: Stability of Random Forest importance measures[J]. Briefings in Bioinformatics, 2011, 12(1): 86-89(4). [6] Strobl C, Boulesteix A L, Zeileis A, et al. Bias in random forest variable importance measures: illustrations, sources and a solution[J]. BMC bioinformatics, 2007, 8(25). [7] Boulesteix A L, Bender A, Lorenzo B J, et al. Random forest Gini importance favours SNPs with large 215 minor allele frequency: impact, sources and recommendations[J]. Briefings in Bioinformatics, 2012, 13(3): 292-304(13). [8] Nicodemus K K. Letter to the editor: on the stability and ranking of predictors from random forest variable importance measures[J]. Briefings in Bioinformatics, 2011, 12(4): 369-373. [9] Nicodemus K K, Malley J D. Predictor correlation impacts machine learning algorithms: implications 220 for genomic studies[J]. Bioinformatics, 2009, 25(15): 1884-1890. [10] García-Magarinos M, López-De-Ullibarri I, Cao R, et al. Evaluating the Ability of Tree-Based Methods and Logistic Regression for the Detection of SNP-SNP Interaction[J]. Annals of Human Genetics, 2009, 73(3): 360-369. [11] Boulesteix A L, Janitza S, Kruppa J, et al. Overview of random forest methodology and practical 225 guidance with emphasis on computational biology and bioinformatics[J]. Wiley Interdisciplinary Reviews Data Mining & Knowledge Discovery, 2012, 2(6): 493-507. [12] Janitza S, Strobl C, Boulesteix A L. An AUC-based permutation variable importance measure for random forests[J]. BMC Bioinformatics, 2013, 14(3): 433-440. [13] Genuer R, Poggi J M, Tuleau C. Random Forests: some methodological insights[J]. HAL - INRIA, 2008. 230 [14] Archer K J, Kimes R V. Empirical characterization of random forest variable importance measures[J]. Computational Statistics & Data Analysis, 2008, 52(4): 2249-2260. [15] Amaratunga D, Cabrera J, Lee Y S. Enriched random forests[J]. Bioinformatics, 2008, 24(18): 2010-2014. [16] Breiman L, Cutler A. Random forests-classification manual[OL]. [2008]. 235 http://www.stat.berkeley.edu/~breiman/RandomForests/cc_manual.htm [17] Strobl C, Zeileis A. Danger: High Power!-Exploring the Statistical Properties of a Test for Random Forest Variable Importance[J]. Danger High Power!-Exploring the Statistical Properties of A Test for Random Forest Variable Importance, 2008. [18] Altmann A, Tolosi L, Sander O, et al. Permutation importance: a corrected feature importance 240 measure[J]. Bioinformatics, 2010, 26(10): 1340-1347(8). [19] Wang M. Maximal conditional chi-square importance in random forests[J]. Bioinformatics, 2010, 26(6): 831-837. [20] Díaz-Uriarte R, De Andres S A. Gene selection and classification of microarray data using random forest[J]. BMC bioinformatics, 2006, 7(1): 3. 245 [21] Wu X Y, Wu Z Y, Li K. Identification of differential gene expression for microarray data using recursive random forest[J]. Chin Med J (Engl), 2008, 121(24): 2492-2496. [22] Strobl C, Boulesteix A L, Kneib T, et al. Conditional variable importance for random forests[J]. BMC Bioinformatics, 2008, 9(14): 307. [23] Meng Y A, Yu Y, Cupples L A, et al. Performance of random forest when SNPs are in linkage 250 disequilibrium[J]. BMC Bioinformatics, 2009, 10(5): 78. [24] Chen C, Liaw A, and Breiman L. Using random forest to learn imbalanced data[R]. Berkeley: University of California, 2004. [25] Yang F, Li X, Zhou Q, et al. Margin based variable importance for random forest[J]. Computer Science & Education (ICCSE), 2011 6th International Conference on IEEE, 2011: 1361-1366. 255 [26] Sztendur E M, Diamond N T. Using Fractional Factorial Designs for Variable Importance in Random Forest Models[J]. World Academy of Science Engineering & Technology, 2012, 71: 1095-1100. [27] Ishwaran H, Kogalur U B, Gorodeski E Z, et al. High-dimensional variable selection for survival data[J]. Journal of the American Statistical Association, 2010, 105(489): 205-217. - 8 -
分享到:
收藏