logo资料库

论文研究-不完备信息系统的数据挖掘方法研究.pdf

第1页 / 共3页
第2页 / 共3页
第3页 / 共3页
资料共3页,全文预览结束
第 25 卷第 1 期 2008 年 1 月  计 算 机 应 用 研 究 Application Research of Computers Vol.25 No.1 Jan.2008 倡 不 完 备 信 息 系 统 的 数 据 挖 掘 方 法 研 究 1, 刘思伟 邢化玲 2, 高社生 1, 唐士杰 1 (1.西北工业大学 自动化学院, 西安 710072; 2.西安测绘研究所, 西安 710054) 摘 要: 根据分层递阶约简算法,提出了一种直接在不完备信息系统上进行数据挖掘的方法。 该方法首先将信 息系统中由所有属性构成的单层知识表示转变成由部分属性所构成的多层知识表示,即由完备属性和不完备属 性表示;然后建立了两个不同层次的子系统,并推导出各个子系统的规则集;最后,将该方法应用于心脏病诊断 系统的研究。 仿真结果证明,该方法具有较强的实用性和有效性,并能提高知识约简的速度。 关键词: 不完备信息系统; 粗糙集; 数据挖掘; 分层递阶约简 中图分类号: TP274   文献标志码: A   文章编号: 1001唱3695(2008)01唱0090唱03 Research of data mining method for incomplete information system XING Hua唱ling1, LIU Si唱wei2, GAO She唱sheng1, TANG Shi唱jie1 (1.College of Automation, Northwestern Polytechnichal University, Xi’ an 710072, China; 2.Xi’ an Mapping Institute, Xi’ an 710054, China) Abstract: Based on the hierarchical reduction algorithm, this paper proposed a data mining method based on rough sets theory for incomplete information system.Knowledge was presented hierarchically with multiple layers.The attributes were firstly par唱 titioned into complete parts , incomplete parts and two sub唱systems with various levels were created accordingly.Then the re唱 duction was hierarchically applied to each sub唱system.Finally, the method was applied to the diagnosis system of heart dis唱 ease.Simulations show that the method has a strong applicability and a more rapid reduction speed.Therefore the effectiveness of the method is verified. Key words: incomplete information system; rough sets; data mining; hierarchical reduction 问题的决策或分类规则 0 引言 粗糙集理论作为一种新的处理不确定性知识的数学工具, 越来越受到众多学者的广泛关注。 粗糙集理论的主要思想是 在保持分类能力不变的前提下,通过知识约简,导出所要研究 [1]。 将粗糙集理论与神经网络、模糊 理论、专家系统、遗传算法和证据理论结合,可广泛应用于模式 识别、机器学习、知识获取、数据挖掘、决策分析和决策支持等 领域。 数据挖掘是知识发现的一个环节。 它是在某种约束条 件下,应用数据分析和数据发现算法,从数据中获取某些特定 模式,目的在于从大量数据中发现那些令人感兴趣的规则。 在 实际问题中不完备信息广泛存在。 经典的粗糙集理论只能处 理完备的信息系统,而对不完备信息系统进行知识约简时,要 先经过预处理使其完备化,然后再进行约简。 这样,可能会使 原始数据和经过数据挖掘而获得的知识存在不同程度的失真, [2]。 文献[3] 中提出了一 种分层递阶约简算法,并证明了在信息系统的信息熵、平均知 识粒度和平均知识层次保持不变的情况下,由该算法所得到的 层次和多种粒度上问题的求解。 本文提出一种基于粗糙集理 分层递阶约简可使单层次和单粒度上问题的求解转变为多种 甚至可能使原有数据系统不可挖掘 论的不完备信息系统的数据挖掘方法。 1 不完备信息系统 1畅1 不完备信息系统 定义1 称四元组 S =(U,A,V, f) 为信息系统。 其中:U 是对象的非空有限集,称为论域;A 为属性的非空有限集合,Va 为属性 a∈A 值域;V =∪ a∈AVa,而 Va 为属性 a 的值域; f:U ×A→ V 是一信息函数,对于给定对象 x, f(x,a)赋予对象 x 在属性 a 下的取值。 如果 A 由属性集合 C 和结论属性 D 组成,C 和 D 满足 C∪D =A,C∩D =碬,则称 S 为决策系统。 若在 S 中, 愁x∈U,a∈C,a(x) =倡,即 a(x) 未赋值时,称该决策系统是 不完备的,a 为不完备属性;否则,称该决策系统是完备的 [4]。 1畅2 不完备信息系统的常见处理方法 有:删除法;使用全 局常量填充空缺值;使用属性的平均值或常见值填充空缺值; 使用回归法、贝叶斯方法或判定树等方法确定最可能的值,用 来填充空缺值;扩展法,将一个不完备元素扩展成由其不完备 属性上的所有可能取值组合而成的若干元素。 常见的处理不完备信息系统的方法 [2] 以上这些方法都不同程度地使原始数据和所获得的知识 收稿日期: 2006唱10唱23; 修回日期: 2007唱01唱23  基金项目: 国家自然科学基金资助项目(60574034) 作者简介:邢化玲(1980唱),女,吉林通化人,硕士研究生,主要研究方向为信息融合与控制(aling654@163.com);刘思伟(1962唱),男,山东诸城 人,高级工程师,博士,主要研究方向为惯性大地测量与装备技术;高社生(1956唱),男,陕西西安人,中国惯导技术学会会员,美国数学评论(Ameri唱 can Review) 特邀评委,教授,主要研究方向为导航、制导与控制、信息融合与控制;唐士杰(1980唱),女,广西桂林人,硕士研究生,主要研究方向为信 息融合与控制.
邢化玲,等:不完备信息系统的数据挖掘方法研究 第 1 期 失真,并且未考虑实际问题中属性获取的实时性、难易程度和 成本代价等,从而影响最终决策的实用性。 针对这些不完备处 理方法的不足,本文从原始数据出发,直接在不完备信息系统 上进行数据挖掘,以求得最接近原始数据的规则。 2 粗糙集及其扩展 2畅1 粗糙集题 定义 2 对于信息系统 S =(U,A,V, f),设 P彻A,称二元 等价关系 IND(P) ={(x,y)|(x,y)∈U ×U 且橙a∈P 有 f(x, a) =f(y,a)}为由属性集 P 导出的不可分辨关系。 定义3 对于信息系统 S,设 B彻A,X彻U,称 BX ={x∈U| [x]IND(B)彻X},BX ={x彻U|[x]IND(B)∩X≠碬} 分别为 X 的 B 下近似集和 B 上近似集。 POSB(X) =BX,NEGB(X) =U -BX, BNB(X) =BX -BX 分别为 X 在 B 下的正域、负域和边界。 2畅2 扩展的粗糙集 通常,以不可分辨关系为基础的经典粗糙集理论无法直接 处理不完备信息系统的信息。 相似模型是经典粗糙集模型的 扩展,用相似关系代替了不可分辨关系,可以处理不完备信息 系统。 定义 4 对于不完备信息系统,设 B彻A,称 SIM(B) = {(x,y)∈U ×U|橙a∈B,a(x) =a(y) or a(x) =倡 or a(y) = 倡}为由属性集 B 导出的相似关系。 令 SB(x)表示对象集{y∈ U|(x,y)∈SIM(B)},对 B 而言,SB(x)是与 x 可能不可区分的 对象的最大集合。 定义5 设 B彻A,X彻U,称 BX ={x∈U|SB(x)彻X} 和 BX ={x∈U|SB(x)∩X≠碬}分别为 X 在 B 下的正域、负域 [4]。 3 不完备信息系统的数据挖掘方法 通常对于不完备的信息系统,在数据挖掘前首先按照某种 方法将不完备的数据完备化;然后对完备化后的信息系统进行 数据挖掘。 但是,相对于原始数据来讲,这种做法将会使完备 化后的数据失真,引进噪声,从而使获取的知识或规则不可用。 考虑到实际问题中获取属性的难易程度、实时性和成本等要 求,遵循分层递阶的原则,利用那些容易采集的数据在本层次 上进行数据挖掘获取所需的知识。 如果得不到所需知识,就进 一步深入观察,在下一个层次上获取知识。 这样就可以在不同 的层次上观察和分析同一问题,利用已有的知识逐步缩小问题 求解的范围,直到得到最终结果。 3畅1 数据挖掘过程 数据挖掘方法的思路是:首先,从原始数据出发将属性分 为完备层和不完备层,让不完备属性出现在较深层次上;然后, 利用完备层属性建立首层决策子系统,给定目标规则的置信 度,应用经典的粗糙集理论对其进行知识约简得到满足置信度 要求的规则;最后,根据首层的约简情况,利用不完备层属性建 立次层决策子系统,应用扩展的粗糙集理论对其进行规则推 导。 同时,在每个子系统中,利用粗糙集得到的规则构建模糊 神经网络,以增强系统的决策能力和推广能力。 数据挖掘的步骤如下: [5] 方法 ·19·     a)数据准备。 从原始数据出发,确定条件属性和结论属 性集合,选择各属性的值域。 将原始数据表示成适合粗糙集处 理的二维决策表形式,并将连续条件属性按属性重要性离散化 进行离散化,得到决策系统,记做(U,C∪{d})。 b)属性分层。 将属性分为完备属性层 C1 和不完备属性 层 C2,并且 C1∪C2 =C,C1∩C2 =碬。 c)首层决策系统。 以条件属性 C1 和决策属性 d 构成首层 决策系统,并对其进行知识约简,得到 n 组规则。 计算各条规 则的置信度,确定置信度阈值 r 和规则支持数阈值 m。 放弃置 信度小于 r 且支持数小于 m 的规则,得到置信度等于1 的确定 性规则和置信度大于等于 r 且小于1 的不确定性规则,记为 n1 组规则。 利用这 n1 组规则构建模糊神经网络,对首层决策系 统(U1,C1∪{d})进行决策分析。 d)次层决策系统。 以条件属性 C2 和决策属性构 d 成层次 决策系统(U2,C2∪{d})。 其中:U1∪U2 =U;U1∩U2 =碬。 利 约简,得到带有置信度的规则,并构建模糊神经网络,对其进行 决策分析。 3畅2 首层决策系统的约简算法 的分辨矩阵。 其元素定义为 定义6 对于决策系统 S =(U,C∪{d}),称(m倡 ij = {a|a∈C 且 f(xi,a)≠f(xj,a)} (xi,xj)臭IND(d) m倡 (xi,xj)∈IND(d) ij }为决策系统的分辨函数。 其中:∨m倡 用扩展的粗糙集理论中的相似模型对次层决策系统进行知识 ij ) n ×n 为 S ij 表示 碬 ij 表示合取运算 化为析取范式,则每个子式所包含的条件 称 ρ倡 =∧{∨m倡 ij 所有属性的析取运算;∧m倡 m倡 将分辨函数 ρ倡 属性构成一个约简。 3畅3 次层决策系统约简的计算 定义7 对于不完备决策系统 S =(U,C∪{d}),B彻C,称 矪B(x) ={i|i =d(y),y∈SB(x)} 为决策系统的广义决策函数。 设 αB(x,y) 是满足(x,y)臭SIM({a}) 的 a∈B 的集合,则称 (x,y)∈U ×{z∈U|d(z)臭矪C(x)}αC(x,y)为 S 的区分函数。 Δ倡 = 将区分函数转换为析取范式,则每个子式所包含的条件属 性构成一个约简。 3畅4 模糊神经网络的构造 粗糙集作为一种数据挖掘方法,在特征提取和消除冗余数 据方面具有显著功效。 但是由于粗糙集方法不具备推广性,将 其与模糊神经网络相结合来增强系统的泛化能力和决策精度。 a)对原始数据进行离散化得到初始的决策表,并求出各离散 值对应的隶属函数;b)对离散化的决策表进行属性约简,获取 最简决策规则;c) 以所得的决策规则为模糊推理系统的模糊 规则,构建模糊神经网络。 根据以上思路,模糊神经网络共由 以下五层组成。 网络结构如图1 所示。 a)输入层。 节点数与条件属性数目同为 m;输入变量是精 确的条件属性值。 I1 b)模糊化层。 对每个输入变量 xi 离散化为 ri 个不同的离 散值。 该层的神经元作用函数为各离散值对应的模糊隶属函 数: I2 kik =O1 kik](k =1,2,…, k,O2 kik =uikk =exp[ -(I2 k(k =1,2,…,m)。 kik -akik)2 /σ2 k =xk,O1 [6]。 朝钞 k =I1
计 算 机 应 用 研 究 第 25 卷 数据挖掘方法,其误差曲线如图 4 所示。 误差只能收敛到 0畅01。 0.9 0.7 0.5 0.3 0.1 0.09 0.07 0.05 0.03 0.01 j =I3 mim,O3 1i1 ×O2 j =αj =O2 2i2 ×… ×O2 ·29· m;ik =(1,2,…,rk)。 c)规则层。 每一个节点代表一条规则。 若 b) 神经元对应 的离散值是某条规则的规则前件,则该神经元与相应规则层神 经元的连接权值为1;否则为0。 该层的作用函数为该条规则 j (j =1,2,…, 的适用度:I3 p)。 d)结论层。 节点数与决策属性的类型数 n 相同。 c)神经 元与该层中代表相应结论的神经元相连,表示该规则推出某条 结论。 I4 l =钞 l (l =1,2,…,n)。 其中:wjl 表示规 j O3 则的置信度,初值选为相应规则的置信度。 { |[xk] Ri∩Dk |/ 决策规则的置信度公式为 μ(xk) =mini |[xk]Ri|}。其中:xk 代表第 k 条规则;Dk 代表第 k 条规则的决 策属性类;Ri 代表针对该规则的第 i 个条件属性所作的分类。 e)输出层。 节点数与决策属性个数相同。 该层表示去模 糊化。 I5 =钞 l O4 ,wjl。 误 采用梯度最速下降法来修正网络的参数 akik 差函数为 E =钞 l ×bl/(钞 l O4 (ti -yi)2 /2。 l),O5 =I5。 j ×wjl,O4 ,σkik l =I4 i x1 x2 xm ur1 1 ur1 1 ur1 m m 琢1 琢2 琢p w11w21 win wpn b1 bn O5 输入层 模糊化层 规则层 结论层 输出层 图 1 网络的拓扑结构 从 UCI 机器学习数据库 4 仿真实验 [7] heart唱disease 中选择不完备的 Switzerland 数据库,验证本文所提出的数据挖掘方法的有效 性。 其中:条件属性13 个,结论属性1 个,取值为1 和2,代表 是否患有心脏病。 由于属性5 的取值只有 0,将属性 5 去掉。 软件将原始数据库按 80%和 20%的比例分 利用 ROSETTA[8] 成两个:一个作为训练集;另一个作为测试集。 对于训练集,用 属性重要性离散化方法将连续条件属性1、4、7 和9 进行离散 化。 结果属性1 和7 被约掉,属性 4 有(107.5,127.5,152.5) 三个断点;属性9 有(1.35)一个断点。 根据本文提出的方法,首先将条件属性分为两层。 首层包 括完备属性2、3、6 和8;次层包括不完备属性4、5、9、10、11 和 12。 对于首层决策子系统,取置信度阈值为0.75,支持度阈值 为2,通过约简,得到九条规则。 对应的模糊神经网络输入为 条件属性2、3、6 和 8,规则层节点数目为九个,三层和四层之 间连接权值的初始值为规则的置信度,即[1,1,1,1,1,1,1, 0畅8,0畅75]。 对于次层决策子系统,取置信度阈值为 0.6,经过 约简,属性5、10 和12 被约掉,得到七条规则,则网络的输入为 条件属性4、9 和10,第三层节点数目为七个,三层和四层之间 连接权值的初始值为[1,1,1,1,1,0.75,0.65]。 两个子网络的 学习速率都取0.005,α=0畅1。 首层决策子系统的学习误差曲 线如图2 所示;次层决策子系统的学习误差曲线如图3 所示。 误差都收敛到0.005。 先将不完整数据进行完备化后再进行 0.16 0.12 0.08 0.04 0 50 200 100 250 100 150 训练次数/步 300 训练次数/步 200 0 图 2 网络 1 的误差曲线 400 图 3 网络 2 的误差曲线 下面对网络进行测试,测试样本为 25 组。 首层网络识别 出20 组样本,将剩下的5 组样本输入次层网络,有2 组样本得 到识别,所以整个系统的误判率为12%。 从表1 可以看出,本 方法比将不完整的数据完备化处理后再进行数据挖掘的方法, 在决策精度上得到了提高。 本方法不但提高了系统的决策精 度,而且减小了网络规模加快了网络的收敛速度。 表 1 比较结果 设计方法 网络规模 训练 误差 训练 次数 本文方法 4 11 9 2 10.005 3 9 7 2 1 0.005 完备化方法7 24 34 2 10.01 240 400 700 误判 率/% 12 16 0 400 200 800 图4 完备化方法的误差曲线 训练次数/步 600 5 结束语 由于数据采集过程受实时性、难易程度及成本等因素的限 制,在现实生活中,不完备信息系统广泛存在。 传统的处理不 完备信息系统的方法,不同程度地使挖掘到的知识失真于原始 数据。 为此,本文提出了直接在不完备信息系统上进行数据挖 掘的方法。 该方法从实际应用出发,遵循分层递阶的原则,先 在完备属性层上进行数据挖掘。 如果得到的结论不满意, 就 进一步在不完备属性层上进行挖掘;这样可用较小的代价在较 浅层次上得到问题的求解。 在知识推理过程中,将粗糙集和模 糊神经网络相结合,增强了系统的泛化和容错能力,从而提高 了决策精度。 参考文献: [1] PAWLAK Z.Rough sets[J].Communications of ACM,1995,38 [2] 胡旺,冯伟森,李志蜀,等.基于粗糙集理论不完备信息系统的数 (11): 89唱95. 据挖掘[J].四川大学学报,2004,41(4):744唱748. 理论基础[J].控制理论与应用,2004,21(2):195唱199. 出版社,2001. [3] 乔斌,李玉榕,蒋静坪.粗糙集理论的分层递阶约简算法及其信息 [4] 张文修,吴伟业,梁吉业,等.粗糙集理论与方法[M].北京:科学 [5] 侯利娟,王国胤,聂能,等.粗糙集理论中的离散化问题[J].计算 [6] 李雄飞,李军.数据挖掘与知识发现[M].北京:高等教育出版社. [7] DUNTSCH I,GEDIGA G.Uncertainty measures of rough set predic唱 [8] OHM A.ROSETTA technical reference manual[D].[S.l.]:Norwe唱 机科学,2000,27(12):89唱94. 2003. tion[J].Artificial Intelligence,1998,106(1): 109唱137. gian University of Science and Technology,1999.
分享到:
收藏