决策树实现疾病疾病疾病疾病预后预测建
决策树实现
预后预测建模模模模
预后预测建
决策树实现
决策树实现
预后预测建
教学案例
教学案例
教学案例教学案例
文件状态:
[ ] 草稿
[√] 正式发布
[ ] 正在修改
[ ] 作废
文件标识:
DMS_03_008
当前版本:
V01.00.000
作 者:
教培部
研发部
参 与 者:
2010-07-20
完成日期:
太普软件(www.tipdm.com)
: DMS_03_008
目目目目
录录录录
数据挖掘技术及应用(教学案例)
文档编号
1.1.1.1. 概述概述概述概述 ............................................................................................ 3
2.2.2.2. 案例描述
案例描述..................................................................................... 3
案例描述案例描述
3.3.3.3. 建模过程
建模过程..................................................................................... 4
建模过程建模过程
绝密 太普数据挖掘套件(TIP DM Suite) 试用网址:www.tipdm.cn
2
第
9
页
共
页
1.1.1.1. 概述概述概述概述
案例描述
案例描述案例描述
2.2.2.2. 案例描述
从数据中生成分类器的一个特别有效的方法是生成一颗决策树。决策树表示法是应用
最广泛的逻辑方法。目前生成决策树方法的算法主要有三种: CART算法,CHAID算法,C4.5
算法。其中C4.5算法是发展的比较完善也是比较简单易懂的一种决策树算法。
C4.5算法是Quinlan的ID3算法的改进版本,该算法从树的根节点处的所有训练样本
开始,选取一个属性来区分这些样本。对属性的每一个值产生一个分支,分支属性值的相
应样本子集被移到新生成的子节点上,这个算法递归地应用于每个子节点上,直到节点的
所有样本都分区到某个类中,到达决策树的叶节点的每条路径表示一个分类规则。这样自
顶向下的决策树的生成算法的关键性决策是对节点属性值的选择。选择不同的属性值会使
划分出来的记录子集不同,影响决策树生长的快慢以及决策树结构的好坏,从而导致找到
的规则信息的优劣。C4.5算法的属性选择的基础是基于使生成的决策树中节点所含的信息
熵最小。所谓熵在系统学上是表示事物的无序度。不难理解熵越小,则记录集合的无序性就
越小,也就是说记录集合内的属性越有顺序有规律,这也正是我们所追求的目标。
通过手术后疾病复发时间和手术后生存时间作为评价标准,建立模型,并通过数据挖
掘方法,对手术的治疗效果和方案的优劣进行预测,为病人规划最佳的手术和治疗方案,
提高生存质量具有十分重要的意义。
选取某医院10年来肝癌病例总共4860例,每个病例有病人近80个信息,其中包括患
者病历号、性别、年龄、学历、职业、住址、基本病史、临床体征、恶性肿瘤分类、实验
室检验指标、影像学检查等,经过数据预处理,选取其中20个有代表性的样本,选取对预
后有影响的l0个指标如下表:
广州太普软件科技有限公司
页
3
第
4
页
共
: DMS_03_008
数据挖掘技术及应用(教学案例)
文档编号
指标项说明如下:
变量名 变量标示 变量说明
X1
食道静脉曲张 无(no)、轻(light)、中(mid)、重(serious)
门脉癌栓 无(no)、分支(branch)、主干(trunk)
X2
X3
HbsAg 阴性(negative)、阳性(positive)
X4
Anti-HCV 阴性(negative)、阳性(positive)
X5
肿瘤部位 左肝(leftliver)、右肝(rightliver)、全肝(allliver)
X6
肿瘤大小 直径<3cm(small)、3~5cm(middle)、5~10cm(big)、
>10cm(verybig)
X7
肿瘤生长方式 膨胀(dilation)、浸润(infiltration)
X8
肿瘤包膜 完整(integrate)、子灶突破包膜(part)、无(no)
X9
肿瘤旁的微小子灶 无(no)、有(have)
X10
术后腹水 无(no)、少(less)、多(much)
DECISION 预后影响 有(Y)、无(N)
DT_001_Nominal.xl
s
本案例通过太普数据挖掘套件(http://www.tipdm.cn)实现建模过程。
更多关于此软件工具的介绍详见:http://
方案管理方案管理方案管理方案管理
www.tipdm.com
3.3.3.3. 建模过程
建模过程
建模过程建模过程
数据管理数据管理数据管理数据管理
绝密 太普数据挖掘套件(TIP DM Suite) 试用网址:www.tipdm.cn
4
第
9
页
共
页
数据挖掘技术及应用(教学案例)
: DMS_03_008
文档编号
1
预测建模预测建模预测建模预测建模
、
选择算法
绝密 太普数据挖掘套件(TIP DM Suite) 试用网址:www.tipdm.cn
5
第
9
页
共
页
CART
数据挖掘技术及应用(教学案例)
决策树算法建模,也可以选择
C4.5
: DMS_03_008
文档编号
算法建模。
2
本次实例中选择了
、
导入数据
、
参数设置
3
4
、
交叉验证
绝密 太普数据挖掘套件(TIP DM Suite) 试用网址:www.tipdm.cn
6
第
9
页
共
页
数据挖掘技术及应用(教学案例)
: DMS_03_008
文档编号
5
从交叉验证的结果来看,对样本正确分类的个数为8个,从混淆矩阵的第一行也可以
看出,就DECISION属性来说,实际结果为Y的,正确分类到Y的样本数为1个,而错误分
类到N的有8个,同样对于矩阵的第二行,实际结果为N,正确分类到N的样本数有7个,
而错误分类到Y的样本有4个。
、
模型训练
6
、
模型验证
绝密 太普数据挖掘套件(TIP DM Suite) 试用网址:www.tipdm.cn
7
第
9
页
共
页
数据挖掘技术及应用(教学案例)
: DMS_03_008
文档编号
7
选择原数据中的第8行到第10行作为模型的验证数据,对模型进行验证,从验证的输
出结果来看,对这3样本的分类完全正确。
模型预测
、
在进行模型的预测时,任意输入各个属性的值,点击模型预测,即可对模型进行预测。
绝密 太普数据挖掘套件(TIP DM Suite) 试用网址:www.tipdm.cn
页
共
页
第
8
9