logo资料库

决策树实现疾病预后预测建模.pdf

第1页 / 共9页
第2页 / 共9页
第3页 / 共9页
第4页 / 共9页
第5页 / 共9页
第6页 / 共9页
第7页 / 共9页
第8页 / 共9页
资料共9页,剩余部分请下载后查看
决策树实现疾病疾病疾病疾病预后预测建 决策树实现 预后预测建模模模模 预后预测建 决策树实现 决策树实现 预后预测建 教学案例 教学案例 教学案例教学案例 文件状态: [ ] 草稿 [√] 正式发布 [ ] 正在修改 [ ] 作废 文件标识: DMS_03_008 当前版本: V01.00.000 作 者: 教培部 研发部 参 与 者: 2010-07-20 完成日期: 太普软件(www.tipdm.com)
: DMS_03_008 目目目目 录录录录 数据挖掘技术及应用(教学案例) 文档编号 1.1.1.1. 概述概述概述概述 ............................................................................................ 3 2.2.2.2. 案例描述 案例描述..................................................................................... 3 案例描述案例描述 3.3.3.3. 建模过程 建模过程..................................................................................... 4 建模过程建模过程 绝密 太普数据挖掘套件(TIP DM Suite) 试用网址:www.tipdm.cn 2 第 9 页 共 页
1.1.1.1. 概述概述概述概述 案例描述 案例描述案例描述 2.2.2.2. 案例描述 从数据中生成分类器的一个特别有效的方法是生成一颗决策树。决策树表示法是应用 最广泛的逻辑方法。目前生成决策树方法的算法主要有三种: CART算法,CHAID算法,C4.5 算法。其中C4.5算法是发展的比较完善也是比较简单易懂的一种决策树算法。 C4.5算法是Quinlan的ID3算法的改进版本,该算法从树的根节点处的所有训练样本 开始,选取一个属性来区分这些样本。对属性的每一个值产生一个分支,分支属性值的相 应样本子集被移到新生成的子节点上,这个算法递归地应用于每个子节点上,直到节点的 所有样本都分区到某个类中,到达决策树的叶节点的每条路径表示一个分类规则。这样自 顶向下的决策树的生成算法的关键性决策是对节点属性值的选择。选择不同的属性值会使 划分出来的记录子集不同,影响决策树生长的快慢以及决策树结构的好坏,从而导致找到 的规则信息的优劣。C4.5算法的属性选择的基础是基于使生成的决策树中节点所含的信息 熵最小。所谓熵在系统学上是表示事物的无序度。不难理解熵越小,则记录集合的无序性就 越小,也就是说记录集合内的属性越有顺序有规律,这也正是我们所追求的目标。 通过手术后疾病复发时间和手术后生存时间作为评价标准,建立模型,并通过数据挖 掘方法,对手术的治疗效果和方案的优劣进行预测,为病人规划最佳的手术和治疗方案, 提高生存质量具有十分重要的意义。 选取某医院10年来肝癌病例总共4860例,每个病例有病人近80个信息,其中包括患 者病历号、性别、年龄、学历、职业、住址、基本病史、临床体征、恶性肿瘤分类、实验 室检验指标、影像学检查等,经过数据预处理,选取其中20个有代表性的样本,选取对预 后有影响的l0个指标如下表: 广州太普软件科技有限公司 页 3 第 4 页 共
: DMS_03_008 数据挖掘技术及应用(教学案例) 文档编号 指标项说明如下: 变量名 变量标示 变量说明 X1 食道静脉曲张 无(no)、轻(light)、中(mid)、重(serious) 门脉癌栓 无(no)、分支(branch)、主干(trunk) X2 X3 HbsAg 阴性(negative)、阳性(positive) X4 Anti-HCV 阴性(negative)、阳性(positive) X5 肿瘤部位 左肝(leftliver)、右肝(rightliver)、全肝(allliver) X6 肿瘤大小 直径<3cm(small)、3~5cm(middle)、5~10cm(big)、 >10cm(verybig) X7 肿瘤生长方式 膨胀(dilation)、浸润(infiltration) X8 肿瘤包膜 完整(integrate)、子灶突破包膜(part)、无(no) X9 肿瘤旁的微小子灶 无(no)、有(have) X10 术后腹水 无(no)、少(less)、多(much) DECISION 预后影响 有(Y)、无(N) DT_001_Nominal.xl s 本案例通过太普数据挖掘套件(http://www.tipdm.cn)实现建模过程。 更多关于此软件工具的介绍详见:http:// 方案管理方案管理方案管理方案管理 www.tipdm.com 3.3.3.3. 建模过程 建模过程 建模过程建模过程 数据管理数据管理数据管理数据管理 绝密 太普数据挖掘套件(TIP DM Suite) 试用网址:www.tipdm.cn 4 第 9 页 共 页
数据挖掘技术及应用(教学案例) : DMS_03_008 文档编号 1 预测建模预测建模预测建模预测建模 、 选择算法 绝密 太普数据挖掘套件(TIP DM Suite) 试用网址:www.tipdm.cn 5 第 9 页 共 页
CART 数据挖掘技术及应用(教学案例) 决策树算法建模,也可以选择 C4.5 : DMS_03_008 文档编号 算法建模。 2 本次实例中选择了 、 导入数据 、 参数设置 3 4 、 交叉验证 绝密 太普数据挖掘套件(TIP DM Suite) 试用网址:www.tipdm.cn 6 第 9 页 共 页
数据挖掘技术及应用(教学案例) : DMS_03_008 文档编号 5 从交叉验证的结果来看,对样本正确分类的个数为8个,从混淆矩阵的第一行也可以 看出,就DECISION属性来说,实际结果为Y的,正确分类到Y的样本数为1个,而错误分 类到N的有8个,同样对于矩阵的第二行,实际结果为N,正确分类到N的样本数有7个, 而错误分类到Y的样本有4个。 、 模型训练 6 、 模型验证 绝密 太普数据挖掘套件(TIP DM Suite) 试用网址:www.tipdm.cn 7 第 9 页 共 页
数据挖掘技术及应用(教学案例) : DMS_03_008 文档编号 7 选择原数据中的第8行到第10行作为模型的验证数据,对模型进行验证,从验证的输 出结果来看,对这3样本的分类完全正确。 模型预测 、 在进行模型的预测时,任意输入各个属性的值,点击模型预测,即可对模型进行预测。 绝密 太普数据挖掘套件(TIP DM Suite) 试用网址:www.tipdm.cn 页 共 页 第 8 9
分享到:
收藏