logo资料库

基因组医学中的机器学习-计算问题与数据集综述.pdf

第1页 / 共29页
第2页 / 共29页
第3页 / 共29页
第4页 / 共29页
第5页 / 共29页
第6页 / 共29页
第7页 / 共29页
第8页 / 共29页
资料共29页,剩余部分请下载后查看
中国科学院自动化研究所                                                          模式识别国家重点实验室&健康大数据实验室  精准医学翻译系列文章二:《Proceedings of IEEE1》 January 2016 基因组医学中的机器学习-计算问题与数据集综述2 Michael K. K. Leung, Andrew Delong, Babak Alipanahi, and Brendan J. Frey 加拿大多伦多大学电子与计算机工程系, 译者:吴偶3 摘要:本文介绍了一些用于解决重要的基因组医学问题的机器学习任务。基因组医学的 一个目标就是发现个体 DNA 的变化是如何影响不同疾病的风险,并找到背后的致病机理以 便于研制出相应的靶向治疗4方案。本文的重点将放在如何利用机器学习来对 DNA 与细胞中 可能与疾病风险有关联的关键分子的数量(我们称之为细胞变量)之间的关系进行建模。现 代生物学允许对很多细胞变量(包括基因表达5,剪接6和核酸结合蛋白7等)进行高通量测量。 这些细胞变量都可以视为预测模型的目标变量。随着大型数据集的不断涌现和计算技术(如 深度学习)的告诉发展,一个新的基因组医学时代可能会到来。 关键词:计算生物学、深度学习、遗传变异体、基因组分析、基因组生物学、机器学习、 精准医疗 1. 简介 本文描述机器学习如何用来解决基因组医学的关键问题。基因组学研究活细胞的 DNA 序列所编码的功能与信息结构,而精确医学就是基于患者的所有相关信息(包括基因组信息) 来进行个性化定制治疗的实际过程。上述学科都在快速发展,尤其是在数据方面[1] - [4]。 我们认为上述领域的实际问题给机器学习提供了一个非常好的展示其重要性的机会 [5]。机 器学习有可能从现在以及未来去帮助延长数百万人的寿命并提高他们的生活质量,使得他们 避免遭受遗传性疾病或失调症之苦。 一个基因组是建立一个有机体的说明书。自 1953 年以来,人们已经清楚 DNA 分子是 遗传信息存储的物理媒介[6],但直到 2001 年人类基因组计划才初步构造了一个典型的人类                                                               1《Proceedings of the IEEE》创刊于 1913 年,是 IEEE 的官方刊物,位于 JCR 第一分区,以月刊形式出版。每 期仅收录 10 余篇优秀论文,主要刊载电气与电子及计算机科学技术领域的述评和讲座论文,以及横跨 IEEE 所属各学会或专业组所有领域的研究文章。其文章一般是约稿。  2译者注:由于译者初次接触医学文献,很多专业名词通过百度词典或百度百科获得,因此专业术语可能翻 译的非常外行,句子和篇章也很可能词不达意甚至歪曲,欢迎指正。  3联系方式:吴偶  博士、副研究员,中国科学院自动化研究所模式识别国家重点实验室&中科院‐好啦健康 大数据实验室,研究方向为数据挖掘与机器学习,中关村东路 95 号。Email: wuou@nlpr.ia.ac.cn  4  靶向治疗,是在细胞分子水平上,针对已经明确的致癌位点(该位点可以是肿瘤细胞内部的一个蛋白分 子,也可以是一个基因片段),来设计相应的治疗药物,药物进入体内会特异地选择致癌位点来相结合发生 作用,使肿瘤细胞特异性死亡,而不会波及肿瘤周围的正常组织细胞,所以分子靶向治疗又被称为“生物导 弹”。  5  基因表达(gene expression):是指细胞在生命过程中,把储存在 DNA 顺序中遗传信息经过转录和翻译, 转变成具有生物活性的蛋白质分子。【问题,貌似基因表达是过程,怎么会是细胞变量呢?】  6  剪接(splicing):指内含子切除和外显子连接,结果是内含子被剔除,而外显子剪接到一起。  7  核酸结合蛋白:与核酸结合的蛋白质负责 DNA 分子遗传信息的组织、复制和阅读。 
中国科学院自动化研究所                                                          模式识别国家重点实验室&健康大数据实验室  基因组的原始信息草图[7],[8]。然而,更大的挑战是如何解释遗传信息自身的结构,功能 和意义。生物学家埃里克·兰德对当前的研究现状做了一个简单的总结:“基因组像本天书, 难读”。不过,人们对于遗传信息是如何被组织成不同的基因还是有很多了解。每个基因是 像在说明书中的一章,描述了如何建立一个特殊的分子家庭。所谓的蛋白质编码基因8描述 了如何从氨基酸链(蛋白质)构建大分子,而非编码(noncoding)基因描述了如何从核糖 核酸(RNA)链构建小分子。文献[9]和[10]介绍了分子遗传学和细胞生物学。大体来说,人 类基因组包含 20000 个蛋白质编码基因[11]和 25000 非编码基因[12]。 一些基因对生命非常 关键、一些对健康至关重要、而有的即使被剔除掉也无明显的危害。 一个典型基因的最重要的一个信息结构是存在交替区域,也被称为内含子和外显子。这 些区域的边界由核苷酸序列的模式来确定,许多致病突变是通过破坏这些模式来施展其作用。 脊髓性肌萎缩(SMA)是在北美地区导致婴儿死亡的主要遗传原因[13]。如果婴儿的基因组 缺失 SMN1 基因,或者该基因被损坏了,那么容易导致运动神经元存活(SMN)蛋白产生 不足。该基因的另一种形式,被称为 SMN2,可以补偿 SMN 蛋白的产生。图 1 示显示了来 自于蛋白质编码基因 SMN2 的第七外显子的核苷酸序列。由于在所显示的四个位置中的核 苷酸存在差异,细胞无法识别外显子,从而产生一个不具备正常功能的蛋白,因此也无法补 偿 SMN 蛋白的产生。研究人员评估了修复外显子 7 中的 SMN2 功能的疗法[14],[15]。对 SMA 的研究目前已经非常深入,已经可以通过外在的症状来诊断,但基因检测是确认和研 发治疗的关键。其他的遗传性疾病,致病机制更加复杂。癌症是异质性疾病的一个最具代表 性的例子,也即对于同一个疾病,有多个因果路径都会导致相似的症状,但确需要不同的治 疗方法[16]。对于癌症,基因组数据正在成为研制更多的针对性的诊断和靶向治疗的关键[17]。 (蛋白编码外显子) (一般的调控指令) (引起脊髓性肌萎缩的核苷酸) 图 1. 利用机器学习算法确定的外显子和调控指令。如果一个婴儿在某个版本的运动神经元 存活基因是纯合的(同型结合的),那么会导致脊髓性肌萎缩,这也是婴儿死亡的主要原因。 图中位于基因组指令内的三个核苷酸,是被机器学习技术确认是对构建蛋白质的时候包含                                                               8  编码蛋白质的基因,即控制蛋白质合成的基因。 
中国科学院自动化研究所                                                          模式识别国家重点实验室&健康大数据实验室  这种外显子非常重要。【不懂】 精确医疗的概念不是全新的,一个多世纪前医生已经开始用血型来定制输血[18]。现在 不同的是,可以较为廉价地从患者和以及更广泛的人群中收集基因组数据,因此基因组数据 增长得非常迅速,并且数据共享已经开始在推进。基因组的复杂性和体量是传统的在实验室 测试中使用数据的 20-50 倍[17]。本文重点关注基因组医学中的机器学习应用。在基因组医 学李,通过评估一个基因组特性来找到靶向治疗、或找到现成的比较匹配的治疗方法、或确 定疾病风险来制定可能的预防措施。 我们认为,为了实现基因组医学的目标,我们必须开发出有效的计算机系统来准确地解 释基因组文本,这如同细胞里的运转机制一样。虽然这是一个巨大的挑战,但可以使得进行 快速地、廉价地对遗传变异和潜在的有效疗法进行探索,并且还会比使用实验和模型生物等 实践方法更加准确。 当前的基因组医学的最新进展是什么?目前,蛋白质编码外显子9是在基因组中理解得 最透彻的区域。蛋白质的通用遗传代码在 50 年前已经被实验证实[19],并且探测一个编码 突变的变化如何改变相应的氨基酸序列是一个基因组诊断流程的标准特性。例如,如果一个 突变引入了一个“终止密码子10”进入蛋白质序列(也称为“无意义”突变),那么就可以知道该 蛋白质将被截断为一般规则。然而,突变的预测是否会打乱最终的蛋白质分子的稳定性或结 构是一个长期悬而未解的问题[20]。此外,即使有证据表明位置中的至少 5.5%经受纯化选 择[21],编码区只占了人类基因组的 1.5%。越来越多的致病突变发现是在蛋白质编码区外 [22],这说明了仅仅依靠编码区的分析工具不足。很多功能性非编码位置是调控序列,这意 味着他们指示细胞如何来调控重要的过程,例如对基因表达和外显子的可靠识别。这就凸显 了计算模型的重要性,模型可以用来自动识别和理解基因组中的调控指令(如图 1 中的指令)。 这些调控元素显著地增加了细胞生物学的复杂性,这不仅仅归因于基因的绝对数量(例如, 香脂杨树的基因是人类基因的两倍多[23])或编码区本身(例如,小鼠、狗的基因与人类基 因的不同的已编码区域不到 1%[24])。 我们怎样才能学会自动“解读基因组”?与常见的认知任务如视觉中的对象检测和语音 识别不同,人类先天不具备感知和解读基因组序列的能力,也不清楚一个活细胞内的所有机 制、途径和互动。为了取得突破,必须开发具有超越人类能力的计算系统。下面将会介绍一 些具备充分机器学习与基因组生物学专家资源的研究组所开发的能够解释基因组的技术。机 器学习研究者其实还有很多机会能够推动上述问题的解决。可以确认的是,在基因组学与生 物学,更好的资源将用于开发新的计算技术而不是纯粹的数据采集----一些生物学家对此一 直在争论了多年(生物学的“文化包袱”,即授予了超越其他学科的数据特权,在阻止我们前                                                               9  断裂基因中的编码序列。外显子(expressed region)是真核生物基因的一部分,它在剪接(Splicing)后仍会被 保存下来,并可在蛋白质生物合成过程中被表达为蛋白质。  10  mRNA 翻译过程中,起蛋白质合成终止信号作用的密码子。 
中国科学院自动化研究所                                                          模式识别国家重点实验室&健康大数据实验室  进[2])。例如,在癌症基因组图谱(TCGA)项目上花费了近十亿美元后,研究人员质疑该 项目是否应该把重点继续放在测序或转变到功能分析上[25]。 能够解读基因组文本的计算机系统可以以不同的方式来应用于基因组医学。例如近期 “基因编辑”技术的突破允许科学家改变活细胞的基因组,其具有疗效甚至几年前都没有人能 预料到。基因治疗现在包括针对性的修改,如删除有害的变异甚至是在基因组的预定位置插 入新的序列。基因组编辑技术[26],[27]为基因组医学打开了一扇前所未有的机遇之门,使 之前所未有的重要,我们可以在计算机上预测这些编辑的重要性。换言之,知道如何写和知 道写什么是不一样的。 2. 机器学习在基因组解读中的应用 从生物标记如基因组中预测表型(例如性状和疾病风险)本质上是一个有监督的机器学 习问题。其输入是一个与底层生物学相关的 DNA 序列(基因型)段,输出是表型。这个过 程(如图 2(a))对最复杂的表型和疾病是不太适用的。原因有两个:首先,一个完整的基 因型和表型之间的关联是异常复杂的。即使在单个细胞,基因组通过多层的复杂和内部链接 的生物物理过程和控制机理来调控单元的状态,这些控制机理已经被进化所重塑。试图仅仅 通过对基因组和表型的观察来推断这些复杂的调控过程很像努力让计算机从检查二进制代 码以及输赢来学习下棋,而忽略了走子过程;其次,即使可这些模型可以用于推断(也即用 以预测疾病的风险),这些模型的隐变量很可能不符合对应的生物学机制。搞清楚发病机制 不光对于开发新的治疗方法特别重要,而且能够对表型筛选提供补充信息。传统上,表型筛 选只利用希望达到的生物效果来确认化合物,没有利用精确的靶位信息[28]。 图 2. (a)基因组医学的一个主要目标是从基因型(也即某一个生物个体全部基因组合的 全体)预测表型,例如疾病风险。(b)利用训练的模型来预测由一系列 DNA 序列定义的基 因型是如何影响细胞变量,包括蛋白质浓度等。(b)过程简化并模块化了(a)中的机器学 习问题,使得能够探索针对一些关键细胞变量的治疗方法。 我们遵循一个自认为的更强大的方法。这个方法首先训练一个模型来预测可以度量的中
中国科学院自动化研究所                                                          模式识别国家重点实验室&健康大数据实验室  间层细胞变量(也被称为分子表型),然后这些变量可以链接到表型图(图 2(b))。例如, 在如上所述的脊髓性肌萎缩例子里,细胞变量可以是频率。当基因被复制以产生蛋白的时候, 外显子由频率来决定其是否包含在内。细胞变量还可以是一个蛋白质与一个包含基因 DNA 的结合位置,或者是一个细胞里的一个基因(转录物)的拷贝数,或者是蛋白质的沿转录的 分布,和蛋白的浓度等。细胞变量的更多例子将在下一节进行介绍。 上面提到的方法解决了前面所述的两个问题。由于与表型变量相比,上面提到的细胞变 量与基因序列的关系更加紧密,并且更容易根据基因序列来确定,因此学习从 DNA 到细胞 变量的映射模型相对是更简单的。高通量测量技术正在产生不同条件下的可用于分析这些细 胞变量的巨大数据。这些数据集能够用来训练更大的、更为精确的模型。此外,由于细胞变 量对应于中间层的生化活性数量,如一个基因转录物的浓度,他们是非常好的靶向治疗目标。 如果与健康人做对比可以断定出疾病的高风险与一个细胞变量的变化是有关联的,那么一个 有效的治疗手段就是恢复该细胞变量直至到正常状态。另外,在上述的脊髓性肌萎缩例子中, 通过修复基因组指令来增加外显子在蛋白中包含的频率这一方法目前正在临床试验中[14]。 本文的余下部分将对机器学习在细胞变量的计算模型构建以及疾病的遗传因素理 解上做一个全面的综述。我们提倡将细胞变量计算模型的学习过程作为一个中间步骤, 并将解释这么做会更有利于处理日益增加的不同类型的数据。我们会详细描述我们已经 建模过的两种类型的细胞变量,并简要总结我们的研究是如何影响我们的理解脊髓性肌 萎缩、癌症和孤独症谱系障碍的。为了更好地介绍我们的方法,我们将首先介绍现有的 计算疾病风险的模型。此外,我们将描述数据集和相关的机器学习问题,以便于数据科 学家更好地参与到这个非常重要的领域。 图 3. 基因组医学中的生物学家、数据科学家、医学家协同工作方式的简单示意图。机 器学习的作用主要利用高通量测量数据构建面向细胞变量(对细胞相关功能的一个量化) 的专门或者通用目的的预测模型。通过搞清楚变异是如何通过细胞变量来影响疾病,诊断 学家和遗传药理学家能够更加容易发现疾病的直接关联、或者研发新的治疗措施并对个体 病人提出专门的靶向疗法。
中国科学院自动化研究所                                                          模式识别国家重点实验室&健康大数据实验室  3. 细胞生物学、机器学习与基因组医学 在这一章,我们将基因组医学涉及到的不同参与者群的整体工作流程。如图 3 所示。 为了建立一个特定细胞变量的计算模型,首先必须有相应的生物量测量方法,并且还要 收集不同条件下的训练数据。20 世纪 90 年代,生物测量通常需要几个手动步骤并只能获得 少量的数据。这样的技术可以用来进行假设检验,但无法提供足够多的数据来构建准确的具 有复杂性输出的预测模型。随着高通量测量技术的商业化,现在能够以较低的成本来获得几 十万规模的细胞变量的测量数据。例如,数十年前微阵列技术已经被用于窥视活细胞 [29], 但相关的分析新方法和化学新方法仍在不断的推出,如通用蛋白结合微阵列(PBMs)[30], [31],ChI-芯片[32],[33],和 RNAcompete[34],[35]等。高通量测序技术同样被用于各种任 务中[36]:包括蛋白结合位点的鉴定、进化研究中的不同的生物体基因组测序、医学研究中 的个体基因组分析、以及感兴趣区域或整个基因组变异的发现。 除了大规模测定基因类型外,高通量测量技术还可用于测量细胞变量,如不同转录物的 丰度11[37]。尽管体细胞突变会在受孕后在 DNA 里面发生改变可发生于癌症和某些神经系统 疾病[38],[39],一个个体的基因组是相对稳定的。另外一方面,不同细胞的转录组12是有变 化的,并且还受细胞周围环境(如它代表的组织)的影响。以前,微阵列被用来测量大规模 转录物,但现在选择高通量测序方法。另一个高通量测序的应用是分析蛋白质如何与 DNA [40]的特定区域进行交互。蛋白质的结合可以影响基因组的指令是如何利用的,这展示了能 够为细胞生物学的调控所挖掘的复杂性。这些通过对所关注的特定细胞变量进行测量得到的 数据让我们可以在一个生命体所定义的指令的最基本的层面来理解细胞的基本工作原理。高 通量测量技术能够涵盖大部分基因组的各种不同细胞状态下的细胞变量,包括疾病状况。这 些数据现在是公开的。这给数据科学家带来了一个难得的机会,可以使用机器学习技术来构 造细胞变量的预测模型 预测模型的输入包括从 DNA 拉伸序列得到的特征,如特定核苷酸的频率、或某些模体 13的存在,其中一些特征可以从序列本身得到[41]。为了解释 DNA 里面编码的指令是如何通 过生化过程和结构来影响细胞变量,一些其他的特征需要用到,例如,蛋白质结合的 DNA 和 RNA,核小体定位和占有情况[42],以及 RNA 的二级结构[43]。通常,比较好的模型输 入可以直接从 DNA 序列中提取到。对于一个计算模型是否能够在基因组医学上发挥作用, 很多程度上取决于模型输入是否容易得到。鉴于全基因组测序的成本在持续下降,越来越多 的基因组数据将可用于模型训练,并在基因组医学的应用背景中,它可能会成为病人的基因 组获取的标准工具。 图 3 所示的过程中的一个重要方面就是利用机器学习得到的模型能够泛化(或推广)到                                                               11  丰度是指在给定生物组织细胞中,某特异大分子的相对含量。  12  转录组广义上指某一生理条件下,细胞内所有转录产物的集合。  13  模体(motif):即超二级结构,简言之,就是二级结构有规律的组合.例如螺旋‐环‐螺旋,贝塔折叠的组合、阿而 法螺旋组合等。 
中国科学院自动化研究所                                                          模式识别国家重点实验室&健康大数据实验室  新的遗传背景下。例如,我们可以利用公开的基因组和健康组织的数据分析记录来构建模型, 然后应用到患病细胞的基因组上去判定患病细胞的变化分布。“泛化”是在模型构建时的一个 非常关键的性能指标。从建模的角度来看,我们模型必须具备强大的泛化能力,以便能够在 新的遗传背景下处理细胞状态数据。因此,模型构建的一个重要方面就是在模型验证的时候 使用模型从未见过的 DNA 序列以及那些在训练的时候没有碰到过的细胞状态数据。我们很 难构建一个对与训练数据完全不同的 DNA 序列与细胞状态数据都能够比较准确处理的模型, 所以在验证阶段,我们还是要挑选好测试样例来更好地测试模型的可靠性。 如果一个模型具有很好的泛化性能,那么他能够处理导致细胞变量变化的变异 DNA 序 列。这或许能够在不需要对患病细胞进行检测的条件下对疾病状态的预判。在实践中,这种 零样本学习已经成功应用于利用参照的基因组和正常组织来训练模型以确定导致不同疾病 的基因变异。 当用于预测细胞变量的模型没有直接考虑到疾病的相关信息时,如果模型准确地反映了 指令如何在基因组中进行处理的,那么它应该能够找到导致细胞变量改变的变异的疾病。这 种方法已被证明能够较好地处理大量的突变与疾病[44],不过它也会出现错误。如果利用导 致细胞变量改变的程度来对变异进行打分,那么当一个突变尽管会极大地改变细胞变量但是 没有致病性,就会出现假阳性。例如,一个会改变细胞变量从而导致头发颜色变化的基因突 变。假阴性出现在那些对没有在模型中考虑的细胞变量的变异上。上述两种错误都是由于模 型的不完全精确造成的。当研究特定疾病的时候,变异的分值计算可以将疾病相关的数据, 例如人群数据考虑进来。利用这种方式就可以从候选变异集里面挑选出对细胞变量最可能有 影响的部分。更一般地,这些分值可以作为某些疾病专门模型的输入特征,很多基因组区域 的分值都可以用到模型里面。 在总结完基因表达的过程后,我们提供几个具体的例子。重点是剪接和蛋白质核酸结合, 但与疾病相关的细胞变量千变万化,如转录率[45],DNA 甲基化[46],[47],聚腺苷酸化[48], 染色质结构[49],[50],RNA 折叠[51],和蛋白质折叠[52]。 图 4. 基因表达有三个主要步骤构成。首先,基因转录(transcription)制造了一个 RNA 分
中国科学院自动化研究所                                                          模式识别国家重点实验室&健康大数据实验室  子(本质上是 DNA 的拷贝)。在这个步骤里,RNA 分子称为前体信使 RNA(前 mRNA)。 RNA 过程然后修改前 mRNA。这个过程包括剪接掉长的序列片段(称为内显子)并连接侧 面区域(称为外显子)。在这个步骤里,RNA 分子称为信使 RNA(mRNA)。基因转录通过 读取 mRNA 序列的三个字母编码制造了蛋白质分子(一个氨基酸链)。其他的过程包括多 聚腺苷酸化(将腺嘌呤基扩展到 mRNA 的尾部)、mRNA 稳定化(对 mRNA 分子进行处理 使得它不容易被降级)、mRNA 定位(mRNA 被移到一个容易转录的位置)、以及蛋白质定 位(将蛋白质迁移到细胞里面的一个特殊类型的位置)。 A 基因表达 在基因表达里,基因首先被复制(转录)来得到一个信使 RNA(mRNA),然后 mRNA 被翻译已得到一个蛋白质。含有外显子和内含子的 DNA 序列首先转录成 RNA,这被称为前 体的 mRNA(前 mRNA),如图 4 所示。“前体”是指前 mRNA 需要在核内进行进一步的处 理以得到一个成熟的 mRNA。在 RNA 处理的过程中,会发生各种修改,其中之一是剪接[53]。 剪接移除来自前 mRNA 的内含子并与外显子连接在一起。另一步骤是聚腺苷酸化来将一个 腺嘌呤碱基的序列扩展到 mRNA 的尾部[48]。在标准模型中,剪接移除内含子并保留所有 外显子,如图 4 所示,但大多数基因可能以不同的方式被剪接,以便外显子有时去除和/或 内含子被保留,这会增加蛋白质的种类。剪接是一个关键细胞的过程,已被集成在基因调控 网络里[54]。剪接后可能会出现在转录完成后,但是它经常与转录同时发生,从而使转录和 剪接过程相互作用[55]。最后,mRNA 转运出细胞核至核糖体,可以将 mRNA 转换成成蛋 白质。这些是基因表达的主要过程,其余也包括 mRNA 的稳定和蛋白的定位。 图 5. 基因在选择性剪接过程中能产生不同的蛋白质,这里基因指令根据细胞的情况(如细 胞类型)来决定一个外显子是否包含还是排除。利用 RNA-seq,特定细胞类型包含的成千 上万的每一个外显子的频率都能够被测量到。这些数据能够用来训练一个可以发现控制剪 接指令并且预测剪接的计算模型。
分享到:
收藏