logo资料库

具有遗传性疾病和性状的遗传位点分析.docx

第1页 / 共26页
第2页 / 共26页
第3页 / 共26页
第4页 / 共26页
第5页 / 共26页
第6页 / 共26页
第7页 / 共26页
第8页 / 共26页
资料共26页,剩余部分请下载后查看
一、问题重述
1.1问题背景
1.2 需要解决的问题
二、模型假设
三、符号说明
四、问题一的分析与建模
4.1问题分析
4.2模型的建立与求解
五、问题二的分析与建模
5.1问题分析
5.2模型的建立与求解
5.2.1卷积神经网络的模型建立
5.2.2卷积神经网络的模型求解
5.2.3模型的验证
六、问题三的分析与建模
6.1问题分析
6.2问题求解
七、问题四的分析与建模
7.1问题分析
7.2模型的建立与求解
7.2.1模型的建立
7.2.2模型的求解
7.2.3模型的验证
八、模型的评价与结论
参考文献
2016 年“华为杯 ”第十三届全国研究生 数学建模竞赛 学 校 参 赛 队 号 10635001 队 员 姓 名 1. 2. 3.
题 目 具 有 遗 传 性 疾 病 和 性 状 的 遗 传 位 点 分 析 摘要 遗传性疾病和性状的相关联位点分析对人类研究遗传学具有重要意义。目前 许多疾病或性状均有典型的多基因遗传特性,即具有众多基因共同控制,且单个 基因的作用较小的特点,非常适用于全基因组关联性分析(GWAS)的研究。本文 通过建立卷积神经网络模型(Convolutional Neural Network,CNN),对相应 的数据进行分析和统计,完成了对遗传疾病、性状与其相关联位点的分析。我们 通过训练该网络模型,实现了在许多位点中寻找与相应疾病或性状有关的位点。 对于问题一,要求根据合适的方法,把 1000 个样本在染色体片段上所有的 位点信息转换为数值编码方式。本文考虑到数值编码不仅要体现碱基的生物特性, 同时要考虑到后续的数据存储、运行和统计分析。因此,我们的编码方式是 C 对应(01)、T 对应(11)、A 对应(00)、G 对应(10)。 对于问题二,要找到某种疾病最有可能的一个或几个致病位点。本文的解决 方法是采用卷积神经网络建立模型。首先把每个样本的位点信息转换为数字编码 信息进而转变为位点编码图。通过建立卷积神经网络模型,之后采用反卷积的方 式,建立每个样本的特征图。本文通过对 1000 个特征图累加并进行统计分析, 最终选取了 15 个位点。在模型验证中,本文选取常用的分类器进行分类,包括 线性判别分析(LDA)、支持向量机(SVM)、随机森林(RF)、朴素贝叶斯分离 器(NBC)和 Adaboost 分类。对得到的 15 个特征位点进行分类,其结果均在 80% 以上,证明了本模型选取的 15 个位点的有效性以及合理性。 对于问题三,基因是若干个位点组成的集合,并且每个基因包含的位点数目 不同。在问题二的基础上,如果当某个基因包含的位点集合中的一个或几个位点 属于我们已经找到的致病位点集合,那么我们认为该基因与疾病相关。按照这种 方式,我们找到了与疾病相关的 9 个基因。 对于问题四,在问题二的基础上,本文通过对 10 种性状分别建立卷积神经 网络模型。沿用解决问题二的方法,最终找到了对应这 10 种性状的位点。 关键词:全基因组关联性分析(GWAS) 致病位点 卷积神经网络 1
一、问题重述 1.1 问题背景 人体的每条染色体携带一个 DNA 分子,人的遗传密码有人体中的 DNA 携带。 DNA 是由分别带有 A,T,C,G 四种碱基的脱氧核苷酸链组成的双螺旋长链分子。在 这条双螺旋的长链中,共有约 30 亿个碱基对,而基因则是 DNA 长链中有遗传效 应的一些片段。在组成 DNA 的数量浩瀚的碱基对(或对于的脱氧核苷酸)中,有 一些特定位置的单个核苷酸经常发生变异引起 DNA 的多态性,我们称之为位点。 在 DNA 长链中,位点个数约为碱基对个数的 1/1000。由于位点在 DNA 长链 中出现频繁,多态性丰富,近年来成为人们研究 DNA 遗传信息的重要载体,被称 为人类研究遗传学的第三类遗传标记。 大量研究表明,人体的许多表型性状差异以及对药物和疾病的易感性等都可 能与某些位点相关联,或和包含有多个位点的基因相关联。因此,定位与性状或 疾病相关联的位点在染色体或基因中的位置,能帮助研究人员了解性状和一些疾 病的遗传机理,也能使人们对致病位点加以干预,防止一些遗传病的发生。 近年来,研究人员大都采用全基因组的方法来确定致病位点或致病基因,具 体做法是:招募大量志愿者(样本),包括具有某种遗传病的人和健康的人。对 每个样本,采用碱基(A,T,C,G)的编码方式来获取每个位点的信息(因为染色体具 有双螺旋结构,所以用两个碱基的组合表示一个位点的信息);研究人员可以通 过对样本的健康状况和位点编码的对比分析来确定致病位点,从而发现遗传病或 性状的遗传机理。 1.2 需要解决的问题 问题一:采用适当的方法,在 1000 个样本在某条染色体片段上所有的位点 信息中,每个位点的碱基(A,T,C,G)编码方式转化成数值编码方式。 问题二:设计或采用一个方法,找出某种疾病最有可能的一个或几个治病位 点,并给出相关的理论依据。 问题三:现在有 300 个基因,每个基因所包含的位点已知,由于可以把基因 理解为若干个位点组成的集合,遗传疾病与基因的关联性可以由基因中包含的位 点的全集或其子集合表现出来请找出与疾病最有可能相关的一个或几个基因,并 说明理由。 问题四:在问题二的基础上,已知 9445 个位点和其编码的信息。在实际的 研究中,科研人员往往把相关的性状或疾病看成一个整体,然后来探寻与它们相 关的位点或基因。根据题目给出 1000 个样本的 10 个相关性状的信息及其 9445 个位点的编码信息,找出 10 个性状相关联的位点。 2
二、模型假设 (1)假设题中所给信息及数据均正确。 (2)假设每个位点的信息不会受到其它疾病或性状的影响。 (3)假设问题中所提到的性状或疾病只与 9445 个位点有关。 (4)假设问题中所提到的疾病只与 300 个基因有关,与其他基因无关。 (5)假设转换为位点编码图时,对图像的填充不会对提取特征产生影响。 (6)假设疾病不会受多个位点特殊排列组合的影响。 3
三、符号说明 符号说明 腺嘌呤 胸腺嘧啶 胞嘧啶 鸟嘌呤 遗传算法 决策树算法 多重对应分析 卷积神经网络 卷积层中第 j 个输出 池化层中第 j 个输出 输入图像 乘性偏置 加性偏置 卷积核权值 激活函数 最大值函数 卷积符号 修正线性单元 向量 F 的输出类别 全连接层权值 输出类别个数 符号名称 A T C G GA DT MCA CNN jC jS x  b W f Max * ReLu Fy   N Momentum 梯度下降过程中的跳出局部最优动量大小 Minni-batchsize Dropout Ostu Deconv Unpooling Down(·) LDA SVM RF NBC Adaboost 批输入大小 随机置 0 大津分割 反卷积操作 反池化操作 池化函数 线性判别分析 支持向量机 随机森林 朴素贝叶斯分类 Adaboost 分类器 4
四、问题一的分析与建模 4.1 问题分析 传统的碱基编码方式是胸腺嘧啶(T),胞嘧啶(C),腺嘌呤(A)和鸟嘌呤(G), 随着人类基因组计划的完成,数十亿年生物的进化 DNA 序列的数据库积累了大量 数据资料,破译这些 DNA 序列密码的生物学意义,弄清 DNA 序列与生物进化, 遗传机理和疾病发生的关系,是目前生物信息论学家和数学家面临的迫切而艰巨 的任务[1]。在分析序列的过程中,对 DNA 序列进行数字化编码具有十分重要的 意义。问题一要求根据合适的方法,把 1000 个样本在染色体片段上所有的位点 信息转换为数值编码方式,这样便于后面问题的统计分析和为数学建模鉴定基础。 对于数值编码方式的解决。同时,编码的设计与 DNA 计算的可靠性和精确性是有 很大的关系的。有必要从以下几个方面考虑: (1)4 个碱基对中 C 与 G 互补,T 与 A 互补,数值编码要体现碱基的生物特 性[2]。 (2)编码规则要简单实用。 (3)采用数字编码的方式要便于数据的存储、运行和统计分析。 4.2 模型的建立与求解 DNA 长链由 C、T、A、G 四种碱基排列而成。其中,C 与 G 互补,T 与 A 互补, 根据数字编码的规律,(00)与(11)互补,(01)与(10)互补,这样很好的 体现了碱基的生物特性。因此,我们采用的编码方式如表 4.1 所示: 字符编码 数字编码 C 01 T 11 A 00 G 10 表 4.1 碱基编码方式 所以不同位点的的碱基对数值编码方式如表 4.2 所示: 表 4.2 不同碱基对对应的编码方式 AA 0000 AG 0010 TA 1100 TG 1110 CC 0101 CT 0111 GC 1001 GA 1000 AT 0011 AC 0001 TT 1111 TC 0001 CG 0110 CA 0100 GG 1010 GT 1011 本文采用的 DNA 数字编码技术具有许多的优势: (1)体现了碱基互补配对的生物特性。 (2)比传统的字符编码更简单。 (3)采用字符编码的方式,每个碱基要占用 8 个比特,而采用数字编码每个碱 基仅仅占用了 2 个比特,所以数字编码在一定程度上节省了存储空间、减少冗余 度,而且提高了编码效率。 5
(4)采用数字进行编码可以直接进行数据的运行、统计和分析,为后边问题的 分析与建模奠定了良好的基础。 6
五、问题二的分析与建模 5.1 问题分析 在问题二中,给定了 1000 个染色体片段样本分别在 9445 个位点上的编码信 息,其中,这 1000 个样本有 500 个来自正常样本,500 个来自患有 A 病样本。 问题二需要解决的是找出一个或几个最有可能导致疾病 A 发生的致病位点。通过 问题二的描述,我们可以将问题转换为:在 9445 个位点上,找出最有可能区分 正常和患有 A 疾病的一些特征位点。因此,我们可以从机器学习的角度,让算法 学习出这些特征位点。 5.2 模型的建立与求解 在寻找特征位点中,常用的方法有遗传算法(Genetic Algorithms, GA) [3] 、 决 策 树 ( Decision tree , DT ) [4] 方 法 及 多 重 对 应 分 析 ( Multiple correspondence analysis,MCA)[5]。其中利用遗传算法寻找致病位点过程中, 需要对 9445 个致病位点进行基因编码,然后对其组成的特征空间进行搜索,虽 然遗传算法具有训练速度快,计算量小等优点,但在维度较高的情况下(9445 个致病位点),算法复杂度较高,且算法容易陷入局部最优解;同遗传算法类似, 决策树在特征维度较高时,其表现也不理想,且决策树的 ID3 算法在递归时存在 内存开销大的问题;多重对于分析作为对于分析的一个扩展,目前在行为科学及 医学中广泛应用,但由其变量维度不确定性及对极端值敏感等缺点,因而会造成 基因致病位点确定不准确等问题。因此,如何建立好的模型对 9445 个致病位点 组成的特征空间进行快速而精准的位点定位是解决问题二的关键。 卷积神经网络(CNN)是一种常见的深度学习架构,受生物自然视觉认知机 制启发而来。由于 CNN 避免了对图像复杂的前期预处理,可以直接输入原始图像, 特别是其强大的自动学习特征能力,相比传统的特征设计而言,其人为干扰因素 小,因此,近年来,CNN 已经成为众多科学领域的研究热点。本文中,我们首先 将每个样例转换为一幅图像,建立起每个致病位点与图像中每个像素点的对应关 系;随后通过建立卷积神经网络,对建立起的 1000 个图像样本进行参数学习, 利用反卷积,让每个图像样本从输出端到输入端反卷积回来,从像素级上得到卷 积神经网络学习到的每个样例的特征图,最后从这些特征图中,统计出正常样例 和 A 疾病样例在特征图上的差别,进而通过这些特征图的差别定位出关键的致病 位点。 5.2.1 卷积神经网络的模型建立 如图 5.1 所示,为本文所建立的卷积神经网络结构模型。在图 5.1 中,右侧 为卷积过程,左侧为对应的反卷积过程。 7
分享到:
收藏