logo资料库

数据挖掘中分类算法的研究及其应用.pdf

第1页 / 共7页
第2页 / 共7页
第3页 / 共7页
第4页 / 共7页
第5页 / 共7页
第6页 / 共7页
第7页 / 共7页
资料共7页,全文预览结束
第 %# 年 卷 + 月 !""# 微 机 发 展 U5G@8G8B?EA>@=>M>P8?B>;A W8P<%# XE;>!""# 数据挖掘中分类算法的研究及其应用 长沙交通学院 计算机工程系,湖南 长沙 罗海蛟%,刘 显! ; *%""(+ !) ( %) 深圳大学,广东 深圳 ) &%,"+" 摘 要:分类算法是数据挖掘中的最重要的技术之一。作者对具有代表性的分类算法进行了分析和比较;并应用分类方法 在居民出行数据中挖掘出一些公交乘客规则,讨论了数据挖掘方法在公交乘客预测中应用的前景和实效。 关键词:数据挖掘;分类;决策树;决策支持 中图分类号: -.#"%)+ 文献标识码: / 文章编号: ( %""&$#(&% !""# ) ""*,$"# !"#$#%#&’(") *++,-(&./0/12,&%%-1-(&.-/0*,3/’-."4%-05&.&6-0-03 ( %<=>?4@AB>;A8CD8B?EA>@FG5>;G>4;HI;J5;>>@5;J DK4;JLK4D8BBE;5G4A58;1;5M>@L5AN DK4;JLK4*%""(+ , , DK5;4 ; !;OK>;1;5M>@L5AN FK>;OK>;&%,"+" , DK5;4 ) 01234567548%, 091:54;! , , *7%.’&(. : DP4LL5C5G4A58;5L8;>8CAK>B8LA5B?8@A4;AA>GK;5QE>L5;H4A4B5;5;J<-K5L?4?>@LEBB4@5O>LAK>B45;C>4AE@>L8CM4@5>AN8CAN?56 G4PGP4LL5C5G4A58;4PJ8@5AKBLRN4;4PNO5;J4;HG8B?4@5;J ; /??PNGP4LL5C5G4A58;B>AK8H5;5;LA4;G>G5A5O>;8EA5;JH4A44;HH@4SL8B>@EP>LC8@ AK>?@>H5GA58;8;AK>CEAE@>REL?4LL4J>L< 8#9:/’;% : H4A4B5;5;J ; GP4LL5C5G4A58; ; H>G5L58;A@>> ; H>G5L58;LE??8@A < 引 言 数据挖掘,也可以称为数据库中的知识发现( ), T== 是从大量数据中提取出可信、新颖、有效并能被人理解的 模式的高级处理过程。作者在给出数据挖掘基本概念的 问题的科学核技术。人工智能目标非常高,除需要复杂算 法外还需要特定的系统。但 仅仅利用人工智能中一 =U 些已经成熟的算法和技术。 基础上,着重讨论了数据挖掘中分类方法的一些算法,并 将其应用于对城市居民出行数据的分析,利用分类规则力 > 数据挖掘中分类算法概述 分类是数据挖掘中的一个重要课题。分类的目的是 图发现居民出行数据中公交乘客的一些规则,为公交预 学会一个分类函数或分类模型(也常常称作分类器),该模 测、优化决策提供依据。 基本概念 = 数据挖掘( =4A4B5;5;J , =U )是一个交叉学科领域,受 多个学科的影响,包括数据库系统、统计学、机器学习、可 视化和信息科学等。数据挖掘实质上是一种决策支持过 程,其主要技术手段是统计方法,包括数理统计方法、多元 统计方法、计量经济学和时间序列分析方法等。此外,运 筹学、人工神经网络和专家系统技术的发展,也为数据挖 掘提供了新的思路。它的主要特点是能高度自动分析企 业原有的数据,归纳推理,从中挖掘出潜在的模式,预测客 户的行为,帮助决策者作出正确的决策。 =U 技术基础是 统计学与人工智能。人工智能是以自动机为手段,通过模 拟人类宏观外显的思维行为,从而高效率地解决现实世界 收稿日期: !""#$"%$%& 作者简介:罗海蛟( —),男,江西人,硕士,研究方向为软件工程。 %’(& 型能把数据库中的数据项映射到给定类别中的某一个。 分类可用于提取描述重要数据类的模型或预测未来的数 据趋势。分类可描述如下: ( /AA@5REA> 一个特定的类标签( 输入数据,或称训练集( ),是一条条的数 -@45;5;JF>A 据库记录( )组成的。每一条记录包含若干条属性 V>G8@H ),组成一个特征向量。训练集的每条记录还有 DP4LL04R>P )与之对应。该类标签是系 统的输入,通常是以往的一些经验数据。一个具体样本的 形式可为样本向量:( , , !! !!! !" # , ; )。在这里 表 !$ 示字段值, # !% 表示类别。 分类的目的是:分析输入数据,通过在训练集中的数 据表现出来的特性,为每一个类找到一种准确的描述或者 模型。这种描述常常用谓词表示。由此生成的类描述用 来对未来的测试数据进行分类。尽管这些未来的测试数 据的类标签是未知的,我们仍可以由此预测这些新数据所 属的类。注意是预测,而不能肯定。我们也可以由此对数 据中的每一个类有更好的理解。也就是说:我们获得了对
:""< 年 月 P 这个类的知识。 罗海蛟等:数据挖掘中分类算法的研究及其应用 结合训练神经网络,然后从网络提取规则; " · · O? 分类系统的 有三种分类器评价或比较尺度: 设计,目前研究重点是一些基本设计方法,如编码方式,信 预测准确度:预测准确度是用得最多的一种比较尺 任分配函数的设计以及遗传算法的改进上。遗传算法用 度,特别是对于预测型分类任务,目前公认的方法是 番 !" 分层交叉验证法。 于数据挖掘存在的问题是:算法较复杂,还有收敛于局部 极小的过早收敛等难题未得到解决。 计算复杂度:计算复杂度依赖于具体的实现细节和硬 决策树分类算法 !"$ 件环境,在数据挖掘中,由于操作对象是巨量的数据库,因 决策树技术( )是用于分类和预测的主要 6*71/1(809** 此空间和时间的复杂度问题将是非常重要的一个环节。 技术,决策树学习是以实例为基础的归纳学习算法。它着 模型描述的简洁度:对于描述型的分类任务,模型描 眼于从一组无次序、无规则的事例中推理除决策树表示形 述越简洁越受欢迎;例如,采用规则表示的分类器构造法 式的分类规则。它采用自顶向下的递归方式,在决策树的 就更有用。 内部节点进行属性值的比较并根据不同属性判断从该节 大部分分类算法是内存驻留算法,最近出现了一些可 点向下的分支,在决策树的叶节点得到结论。所以从根到 伸缩的分类技术,能够处理大量的、驻留在磁盘的数据。 叶节点就对应着一条合取规则,整棵树就对应着一组析取 分类技术有很多,如决策树、贝叶斯网络、神经网络、遗传 表达式规则。其有很多实现算法,下面作一阐述。 算法、 !# 最临近分类等等。本文重点是详细讨论了决策 树中相关算法。 ( :;<;! =>< )算法 7?;@ 提出的著名的 A%18+B8 学习算法,它通过选择窗 =>< !"# 人工神经网络 口来形成决策树,是利用信息论中的互信息(信息增益)寻 人工神经网络是大量的简单神经元按一定规则连接 找数据库中具有最大信息量的属性字段,建立决策树的一 构成的网络系统,它能够模拟人大脑的结构和功能,采用 个节点,再根据该属性字段的不同取值建立树的分支;在 某种学习算法从训练样本中学习,并将获取的知识存储在 每个分支子集中重复建立树的下层节点和分支过程。这 网络各单元之间的连接权中,连接权值是一个分布式矩阵 种方法的优点是描述简单,分类速度快,特别适合大规模 结构。神经网络的学习体现在神经网络权值的逐步计算 的数据处理。但 =>< 算法是借用信息论中的互信息作为 (包括反复迭代或累加)上。主要有三种神经网络模型:前 单一属性能力的度量,试图减少树的平均深度,忽略了叶 向神经网络;后向神经网络;自组织网络。在数据挖掘领 子数目的研究,其启发式函数并不是最优的,存在的主要 域,主要采用前向神经网络提取分类规则。 从神经网络中采掘规则,主要有以下两种倾向: 网络结构分解的规则提取。它以神经网络隐层节 ! 点和输出层节点为研究对象,把整个网络分解为许多单层 子网的组合,这样研究较简单的子网,便于从中挖掘知识。 的 算法和 的 算法是有代表性的方 &’ $% 法,但此类方法的缺点是通用性差且当网络比较复杂时, ’()*++ ,(-, 学习算法; # 改进算法有 问题有: ! 互信息的计算依赖于属性取值的数目较多的特 征,而属性取值较多的属性不一定最优; "=>< 是非递增 抗噪性差,训练例子中正例和反例较难控制。 7?;@ 等算法以及 (引进可调错误率 2CD’ # 概念)算法等。 B6E%/0*6*99(99B0* 算法 :;<;: .F=A 在决策树的构造过程中采用了“预排序”和“广 .F=A 算法的复杂性高,容易产生组合爆炸问题。 度优先”技术。在一般决策树中,使用信息量作为评价节 由神经网络的非线性映射关系提取规则,这种方法 " 直接从网络输入和输出层入手,不考虑网络的隐层结构, 避免了基于结构分解的规则提取算法的不足。 .*/010( 等 人的相似权值法,以及在此基础上的 算法(将网络输 2.3 入扩展到连续值取值)是其中典型的两种算法。但是神经 网络规则提取还存在诸多问题,如:进一步降低算法的复 杂度,提高所提取规则的可理解性及算法的适用性等需要 进一步的研究。 遗传算法 !"! 遗传算法是模拟生物进化过程的全局优化方法,将较 劣的初 始 解 通 过 一 组 遗 传 算 子(繁 殖———即 选 择、交 叉 ———即重组、变异———即突变),在求解空间按一定的随机 规则迭代搜索,直到求得问题的最优解。遗传算法具有的 隐含并行性、易于和其它模型结合等性质,使得它涉足于 数据挖掘领域,表现在以下几个方面: ! 用它和 算法 45 点分裂质量的参数。 .F=A )代替信息量( 算法中,使用 G181 ),对数据集包含 指标( G18118H 个类的数 " 6*I 据集 =8-(9JB01(8 )定义为: # ) $ !%!&’"&’ 中第 类数据的频率。 ’ # , ( G181 ( G181 是 # # &’ 越大。 KB18 越小, G181 =8-(9JB01(8 区别于一般的决策树, .F=A 采用二分查找树结构。 对每个节点都需要先计算最佳分裂方案,然后执行分裂。 对于数值型连续字段( )分裂的形式 8%J*917B0091L%0* 。所以,可以先对数值型字段排序,假设排序后 (#M! 的结果为 !! 之间,所以有 , !: "#! ,…, ,因为分裂只会发生在两个节点 !" 种 可能性。通常取中点( )/ : !)*!)*! ,取 作为分裂点。从小到大依次取不同的 指标最大( =8-(9H 最小)的一个就是分裂点。因 /N+10N(180 JB01(8KB18 为每个节点都需要排序,所以操作的代价极大,降低排序 G181
· · :7 成本成为一个重要问题, !"#$ 方案。 微 机 发 展 第 卷 ?3 算法对排序有很好的解决 为户口类型,第二个测试属性为职业,第三个测试属性为 对于离散型字段( %&’()*+,%&-&’’+,./’( 的所有可能的值,分裂测试将要取遍 ),设 ( ! " 的所有子集 )为 " ’。寻 ! ! 找当分裂成 ’和 ’两块时的 指标,取到 最 ),0, 小的时候,就是最佳分裂方法。显然,这是一个对集合 !#! ),0, ! 的所有子集进行遍历的过程,共需要计算 ! ]次,代价也 [ 1 ! 是很大的。 算法对此也有一定程度的优化。 !"#$ 算法能够处理比 !"#$ ( #23 4567 )所能处理的大得多 的训练集,因此在一定程度上具有良好的随记录个数和属 性个数增长的可扩展性。然而它仍然存在如下缺点: ! 由 " 年龄。根据决策树各层分类结果及乘坐公交出行人数所 占比重,我们可以发现暂住人口公交出行比例远大于常住 人口;第二个测试属性职业也是符合现实情况,职业不同, 收入较低及个体经营者公交出行比重较大;其它类似,不 作赘述。如果有统计局的人口详细信息,根据决策树图, 我们可以得出公交预测数据,为宏观交通规划提供辅助决 策依据。 总 结 数据挖掘中分类和预测是重要的部分之一,分类算法 只是用于交通预测,在政府经济计划辅助决策、保险业、银 行、股票交易等领域也大有作为,可以为管理人员、决策人 算法等);分类方法不 @AB 于需要将类别列表存放于内存,而类别列表的长度与训练 有很多,近来出现了很多新的改进算法(基于粗糙集的并 集的长度是相同的,这就一定程度上限制了可以处理的数 行决策树算法、基于贝叶斯的 据集的大小。 " 由于采用了预排序技术,而排序算法的复 杂度本身并不是与记录个数成线性关系,因此使得 !"#$ 算法不可能达到随记录数目增长的线性可扩展性。 员控制投资风险提供有力的决策支持。 数据挖掘分类技术在公交预测的应用 参考文献: ! 上面讨论的各类算法,各有优缺点,很难找到一个可 [ ] ? F&9.(+G62&’&G,0,0) 4*0%(H’I&0J@(%KL : 以满足各方面需求的分类算法,因此在具体工作中,必须 根据数据类型特点及数据集大小,选择合适算法。 在某市的交通规划预测项目中,采用数据挖掘的决策 树分类方法,应用于该市居民的日出行数据,得出居民日 出行数据中公交乘客预测决策树图,为今后居民公交出行 预测提供了坚实的数据基础,为优化决策提供了依据。 经过连续数据的离散化,我们采用的训练集记录包含 属性为:编号、年龄、户口类型、职业、公交出行与否。由于 记录数不是特别大,故可采用内存驻留类的算法,这儿采 用 $5%7 算法得到决策树,其中每个测试属性由算法自动 )。在根节点,训练集记录总数 选取(根据 为 1:157 ,08*+9&’,*0)&,0 ,其 中 乘 坐 公 车 的 为 , C&0D,&E(, ] [ 0,M/(I G , Q(+I,’R [ ] 1 [ ] 3 6G*+)&0F&089&00N/.-,IK(+I6!,9*O+&I(+P0,L 1:::6?; D 清华大学学报 > (自然科学版), ,( ) 6 1::1 W 基础信息论[ [ ] 藤田宏一 7 6 ] 魏鸿骏,陈尚勤译 G 6 北京:国 6 防工业出版社, ?=;1> 5< 用 。该决策树得到的第一个选取的分类的测试属性 机系(见 15>?& K’’H I((UZ*.69R+,%(6%*9 J9S?6K’9 6 ,所 占 百 分 比 为 5;<= W [ ] 郑纬民,黄 刚 数据挖掘纵览[ ] 清华大学计算 > :// / VX / Y" 6 ) !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! 这对于实时性要求较高的虚拟仪器应在其智能行为上有 (上接第 页) J6 4"#N! 实现智能模块并用 4 语言实现通信接 所取舍,首先满足其基本的功能和要求。 口。 将虚拟仪器和智能模块装于同一机器或通过网络 (6 参考文献: 连接的不同机器上。 # 结束语 通过在虚拟仪器中集成 技术,大大地扩展了虚拟 A# 仪器的功能,使其更具有象人一样的推理、思维的能力。 在智能模块中还可切换其知识库映像使虚拟仪器象多面 手一样,完成各种信号测试与处理任务。但是应看到,人 工智能推理技术尚存在推理效率不高、实时性差等缺点, [ ] 刘君华 ? 现代检测技术与测试系统设计[ 6 ] 西安:西安 G 6 交通大学出版社, ?===6 [ ] 王永庆 人工智能原理与方法[ 1 6 出版社, ?==;6 ] 西安:西安交通大学 G 6 [ ] 张凤均 3 / 6"&.[,0J*EI 4\# 开发入门与进阶[ ] 北京:北 G 6 京航空航天大学出版社, 1::?6 [ ] 印 鉴,刘星成,汤 庸 5 专家系统原理与编程[ 6 ] 北 G 6 京:机械工业出版社, 1:::6
数据挖掘中分类算法的研究及其应用 作者: 罗海蛟, 刘显 作者单位: 罗海蛟(长沙交通学院,计算机工程系,湖南,长沙,410076), 刘显(深圳大学,广东,深圳 刊名: 英文刊名: 年,卷(期): ,518060) 微机发展 MICROCOMPUTER DEVELOPMENT 2003,13(z2) 25次 引用次数: 参考文献(6条) 1.HanJiawei.Kamber M Data Mining:Concepts and Techniques 2000 2.Agrawal R.Imielinski T.Swami A Database mining: A performance perspective 1993(06) 3.Mehta M.Agrawal R.Rissanen J SLIQ: A Fast and Scalable Classifier for Data Mining 1996 4.刘红岩 挖掘中的数据分类算法综述 2002(06) 5.藤田宏一.魏鸿骏.陈尚勤 基础信息论 1982 6.郑纬民.黄刚 数据挖掘纵览 相似文献(10条) 1.学位论文 李少猷 基于贝叶斯理论的数据挖掘方法在电子邮件分类中的应用研究 2007 本文研究了基于贝叶斯理论的数据挖掘方法在电子邮件分类中的应用。 伴随着人类社会进入信息时代,电子邮件作为便捷快速的信息传递方式,已经成为现代社会商务、生活不可或缺的一部分。然而电子邮件正被利用 发送一些它的接收者并不需要、并不想接收的信息,所谓垃圾邮件,粗略地讲,是指那些不管接收者是否要求发送、是否愿意接收而大量发送给数以千 计的接收者的电子邮件。垃圾邮件的数量在近年来成指数级别增长,人们不得不着手解决垃圾邮件带来的问题。 应对大量垃圾邮件带来的挑战,很多反垃圾邮件技术和方法出现了。反垃圾邮件技术,或者说电子邮件过滤技术,本质上是电子邮件分类技术。电 子邮件分类系统从最初只能进行简单的基于静态规则的分类,逐步发展到利用数据挖掘方法,针对垃圾邮件发送的内容和发送垃圾邮件的行为进行自动 学习、识别和判断,动态地生成和调整分类电子邮件的规则,智能地进行分类。在电子邮件分类领域应用数据挖掘方法是目前学术界和工业界研究的热 点。 在电子邮件分类领域,从实际的应用条件,如存储空间,响应速度和计算复杂度等角度来看,以贝叶斯理论为基础的基于邮件内容的过滤分类技术 是目前的主流和最重要的技术。本文的研究从数据库知识发现的角度出发,在电子邮件分类领域,从选择目标数据、预处理数据、转化数据入手,进行 数据挖掘以提取模式和关系,解释并评价所发现的关系在预测中的效果;分析、研究、比较、评估基于贝叶斯理论的不同的模式和关系,在实践中观察 、调整、改进有监督机器学习的步骤、参数。 本文深入地研究了基于贝叶斯理论的数据挖掘方法在电子邮件分类中的具体效果和相关细节。首先,探讨了电子邮件的分类模型和分类基本假设 ;然后,讨论了电子邮件的特征提取,包括文档频次和信息增益两种方法,同时根据经验方法进行了特征约简;最后,比较研究了三种基于贝叶斯理论 的分类算法,关注特征提取方法的不同,特征重要性的判别标准不同,采用的特征的不同类别对分类算法的影响。同时也检验了有监督学习训练的效果 。 通过本文的研究工作,以电子邮件分类应用为样本的一整套基于贝叶斯理论的数据挖掘分类方法的应用系统初具雏形,整个机器学习、数据挖掘领 域需要考虑的特征提取、学习训练、分类器设计、性能评估、反馈改进等各个环节都给出具体的方法和需要考虑的关键细节,并通过实验的方式进行了 经验验证。虽然本文的研究只是针对电子邮件分类这个特殊的领域,但是文中所采用的数据挖掘方法具有应用上的普遍适用性,可以广泛地应用到各种 各样的分类的领域,比如信用风险评估、欺诈行为侦测,甚至应用到股价预测评估当中。针对各种各样的分类应用领域,本文提供了一个普遍适用的、 经过经验验证的、数据挖掘领域基于贝叶斯方法的应用框架。 2.期刊论文 王预 正在走向现实的数据挖掘及其分类预测 -教育信息化2004,""(10) 数据挖掘是当今一个新的技术热点.本文从数据挖掘、数据挖掘环境、数据挖掘的基本过程展开研究,分析了数据挖掘的模式,详细阐述了分类、预测 的区别与联系,展望了数据挖掘未来的研究方向. 3.学位论文 秦昆 基于形式概念分析的图像数据挖掘研究 2004 随着图像数据获取设备和获取手段的迅速发展,我们获取了海量的图像数据,如何充分地利用这些图像数据,从图像数据中挖掘出隐含的、潜在的规律 性的知识,是目前迫切需要解决的问题.该文对图像(遥感图像)数据挖掘与知识发现这一新的概念的内涵和外延进行了系统地深入地分析和研究.该文对形 式概念分析(概念格)理论进行了系统地深入地分析.该文对基于形式概念分析理论的数据挖掘的原理和算法进行了研究,将关联规则、分类规则、聚类规 则统一成"A→B"的形式,从而建立了集关联规则挖掘、分类规则挖掘和聚类规则挖掘为一体的统一的数据挖掘的框架.该文重点对关联规则挖掘的算法进 行了深入的研究,并研究出两种集概念格的构建和Hasse图的绘制为一体的关联规则挖掘的快速算法.其中,第二种算法建立了辞典序索引树,并根据概念格 节点的内涵基数实现分层存放,经过实验验证,证明这两种算法都优于经典的关联规则挖掘算法Apriori算法,并且第二种算法比第一种算法更加快速有效 .我们对现实世界的认识是在不同的层次、不同的粒度世界里进行的,对于图像数据挖掘来说也是如此,这就涉及到一个图像数据挖掘的粒度问题.该文通 过对商空间理论的分析与研究,利用商空间理论提供的形式化语言米描述图像数据挖掘的不同的粒度世界,将商空间理论与形式概念分析理论相结合,对图 像数据挖掘与知识发现的机理进行了研究,从理论上提出了一个概念驱动的图像数据挖掘与知识发现的理论框架.该文重点对光谱(颜色)特征知识挖掘、 纹理特征知识挖掘、空间关系特征知识挖掘等进行了实验研究,从图像数据中挖掘出了大量的光谱特征知识、纹理特征知识以及空间分布规律知识等.该 文选取了大量的航空纹理样本图像,进行了基于纹理特征知识的纹理图像分类的实验,并且与基于灰度共生矩阵、基于马尔柯夫随机场的纹理分类方法进 行了对比实验,实验结果证明该文所研究的集于图像数据挖掘的纹理分类方法的分类精度比另外两种纹理分类方法的分类精度更高.利用图像数据挖掘的 方法可以从图像数据中挖掘出大量的图像知识,该文对图像知识的存储与管理以及基于知识的应用等问题进行了研究.该文提出了利用关系数据库以及文 本文件的方式实现图像知识的统一存储和管理的方法,建立了一个图像知识库系统,实现了图像知识的有效存储和添加、删除、查询等功能.该文在图像数 据挖掘的相关理论与技术研究的基础上,研究并开发了一套图像(遥感图像)数据挖掘的软件原型系统RSImageMiner,该软件原型系统包括以下功能模块. 4.期刊论文 袁红星.谷琼 数据挖掘中BPN与PNN分类的对比研究 -计算机时代2006,""(9) 分类问题是数据挖掘中的一个重要问题.尽管神经网络是一种高精度的分类器,但是由于神经网络模型众多,在分类预测时如何选择合适的模型,还没 有一个普遍的原则.文章对后传播神经网络(BPN)和概率神经网络(PNN)在数据挖掘分类中的应用进行了对比研究,并利用这两种模型对高校研究生信息进
行了分类挖掘.仿真结果证明,PNN模型在分类预测上优于BPN模型,而且其分类速度快、正确率高、测试结果稳定. 5.学位论文 张超 数据挖掘中分类分析的策略研究及其生物医学应用 2008 背景:数据挖掘是综合利用了统计学、数据库和人工智能技术,从海量数据中提取知识和信息的一门技术。据报导,在我国生物医学中仅有不足 10%的数据用来分析。与此同时,在生物医学数据资源中数据挖掘方法学研究是相对匮乏和滞后的。当前,数据挖掘已成为一个具有迫切现实需要且很 有前途的热点研究领域。随着生物医学数据量的急剧增涨及其数据的特殊性,需要加大数据挖掘的方法学研究。 在生物医学领域,分类方法应用非常广泛,可应用于影像学的图像分类处理;病理、检验、肿瘤等学科进行辅助诊断和识别;基因芯片、蛋白质芯 片等微阵列数据分子生物学技术诊断;中医症侯特征分类;人寿保险;预测和自动控制等方面。因此,如何利用分类分析从大量数据中智能地、自动地 提取出有价值的知识和信息的研究,具有十分重要的现实意义和广泛的应用前景。 目的:应用MonteCarlo方法比较数据挖掘中分类分析的八种方法,探讨不同分类方法的特点及在特定数据条件下的优势与不足,据此提出数据挖掘 中分类分析的策略,为数据挖掘的实际应用提供依据。 方法:选择八种分类方法,即判别分析中的线性判别(LinnerDiscriminantAnalysis,LDA)、二次判别(QuadraticDiscriminantAnalysis,QDA)、K- 最近邻法(K-NearestNeighbors,KNN);logistic回归;决策树中的CHAID(Chi-squareAutomaticInteractionDetector,CHAID)、C4.5、 CART(ClassificationandRegressionTrees,CART)及BP神经网络(BackPropagationNeuralNet-Work,BPNN)。采用MonteCarlo模拟研究对前述八种方法进 行比较。所有模拟数据的目标变量设置为二分类,预测变量数目设置为3。考虑7个可能影响分类结果的因素,依次为: ①预测变量的分布类型;②样本量大小;③组间协方差的比率;④组间样本量的比例;⑤两组间的效应量大小;⑥变量间的多重共线性;⑦先验概 率。预测变量的分布类型考虑4种情况,即①多元正态分布;⑦多元偏态分布(本研究设置总体偏度系数γ1=2.0、峰度系数为γ2=7.0);③混合型分布 ,即X1为正态分布变量,X2为偏态分布(总体偏度系数γ1=2.0、峰度系数γ2=7.0),X3为二分类计数属性变量;④所有预测变量均为二分类计数属性变 量。本研究中两组样本量之和分别设置为60、100和400。组间样本量比例设置为50:50、25:75与10:90。组间协方差比率设置为1:1、1:4及1:8。组间效 应量大小设置为0.2、0.5及0.8。在模拟中对三个预测变量总体间的相关系数p设置为0.3。对于多重共线性的探讨,设置X1与X2总体间的相关系数p别为 0.6、0.9,与X3的相关关系不变。初步模拟时先验概率均设置为先验概率与样本量比例相等,而后设置组间先验概率相等(0.5:0.5)以及先验概率为 0.25:0.75作为对比。方法间性能评估所用指标为总的错判率、灵敏度、特异度及ROC曲线下面积。对各种条件下数据模式进行2次随机抽样,一个样本作 为训练集构造模型,另一个作为测试集验证模型。而后重复上述操作1000次,计算测试集数据错判率、ROC曲线下的面积、灵敏度及特异度的均值用以评 价模型性能。 结果: 1.不同数据分布类型 ①多元正态分布,组间协方差相等时,LDA最优,其次为logistic回归,决策树法较差。相对而言,参数方法较之非参数方法要优。当数据为正态分 布,组间协方差不等时,QDA最优,次之为非参数法,LDA与logistic回归较差。 ②多元偏态分布,组间协方差相等时,决策树及BP神经网络较优,LDA、QDA、logistic较差。偏态分布,组间协方差不等条件下,决策树法、KNN及 QDA较优,LDA与logistic回归较差。 ③混合分布,组间协方差相等时,决策树及logistic回归较优,三种判别分析较差。组间协方差不等条件下,决策树法较优,LDA与logistic回归较 差。 ④当数据为分类分布时,决策树与logistic回归较优,三种判别分析及BP神经网络较差。 2.协方差对分类的影响组间协方差不等,对于参数方法影响较大,尤其是QOA及logistic分析。较大协方差组错判率大,较小协方差组错判率小,而 且协方差比例越不均衡,这一趋势愈为明显。以正态分布为例,当协方差为1:4时,两组错判率比值为1.14~2.30;在协方差为1:8时,两组错判率比值 为1.10~3.80,KNN、BPNeural表现更为明显。 3.样本量及样本量比例对分类的影响当诸如数据分布类型、效应量、协方差不变时,随着样本量的增大,错判率减少,同时ROC曲线下面积增大。以 正态分布协方差相等条件为例,样本量增大,错判率减小2%~11%,最为敏感的方法为BP神经网络,最不敏感的方法为KNN。样本量对分类效果的影响 不如协方差影响大。 样本量比例的不均衡对错判率的影响较大,以先验概率相等,正态分布、协方差相等条件下模拟结果为例,样本量大组(larger)错判率低,样本量 小组(sinailer)错判率大。如样本量比例10:90条件,larger组下降了10%~98%,smaller组增大了17%~83%。下降的幅度高于增大的幅度,即使总 的错判率减小,是以牺牲灵敏度为代价。 4.效应量对分类的影响当数据分布类型、组间协方差,样本量一定的条件下,效应量越大,错判率减少,同时ROC曲线下面积增大。以正态分布,等 协方差,等样本量条件的模拟结果为例,各方法都有不同程度的改变,当效应量由0.2增大为0.8时,错判率减小了30%~55%。LDA及logistic回归尤为 明显。效应量对错判率的影响较大。 5.共线性的影响随着共线性程度的增强,错判率增大,ROC曲线下面积减小。相关系数由0.6增至为0.9时,错判率增加幅度并不大。以正态分布、等 样本量比例及协方差比率为1:4条件为例,当相关系数由0.3增至0.9时,错判率增大了1.36%~9.44%。出现这样的结果,估计在条件设置时仅设置了 X2、X3有较强相关性有关。 6.先验概率的影响先验概率对错判率的影响很大,以正态分布为例,当样本量比例相等,先验概率为1:3,较大概率组错判率显著减小,降低为先验 概率1:1条件的1.48~8.57倍。而较小概率组错判率增大,与先验概率1:1条件相比,增大为1.35~2.94倍。当先验概率设置为与样本量比例相等时,较 之先验概率不等但样本量比例相等条件,又加剧了前述趋势。此条件下,较大概率组错判率降低为2.15~8.90倍,较小概率组错判率增大为 1.59~2.95倍。显著降低了灵敏度。 7.实证分析依模拟结果为理论指导,我们将分类方法应用于三个实际医学资料。其一,对心肌梗塞数据建立了二次判别分类模型。其二,联合应用 logistic回归与BP神经网络对脂肪肝数据构建了分类模型。最后,又将CART法应用于糖尿病数据探索其影响因素并建立了分类模型。结果表明,各模型 与数据吻合较好,可应用于医学实际。 结论:在所研究的八种分类方法中,每种方法或多种方法的组合均在特定数据条件下体现出各自优势,因此可依据本研究的结果制定分析策略。首 先,对数据进行预处理,即数据清洗、数据集成、数据变换和数据归约。第二,进行分类分析时关注数据的分布类型及其协方差的情况,而后进行方法 的选择。当数据为多元正态分布,组间协方差相等时,可选择LDA及logistic回归。组间协方差不等时,可选择QDA。偏态分布,组间协方差相等时,可 选择决策树及BP神经网络。组间协方差不等时,可选择决策树法、KNN和QDA。当数据为混合分布,组间协方差相等时,决策树及logistic较优,组间协 方差不等时,决策树法较优。当数据为分类分布时,可选择决策树与logistic回归。 6.学位论文 原野 基于数据挖掘的视频分类和检索研究 2003 该文以数字视频数据为基础,采用数据挖掘技术对基于内容的视频分类和检索进行研究.将这些实际问题抽象为视频数据的准备、基于完整视频特征 的视频分类、基于镜头序列的视频分类、结合分类的视频检索四个子论题.在视频数据准备方面,从数据挖掘的角度,提出了一套系统的视频数据准备方法 ,包括视频数据的采集、分割、特征提取和数据预处理.首先,提出一个自动动态阈值选择的视频分割方法(VSUDT),它是一种简单而有效的象素域镜头检测 方法,仅需对视频进行一趟扫描,根据视频局部特征动态选择高低两个阈值进行双重比较.实验显示VSUDT方法比传统的Twin Comparison法的效率和精度更 高;其次,在视频分割过程中,提取了面向视频和面向镜头的两套视频特征,这些特征兼有静态和动态特征的特点;最后,根据视频分类挖掘的需要分别对这 些特征进行数据预处理.在基于完整视频特征的视频分类方面,提出了一种结合决策树归纳和关联分类的视频分类方法,该方法利用完整视频特征进行视频 分类.其过程是利用决策树分类和关联分类两种方法分别提取决策树分类规则集和分类关联规则集,然后采用规则集合并算法(C2S)合并两套规则集,形成 一个新规则集.该方法利用决策树和关联分类的特点,摒弃它们的弱点.实验表明,结合决策树归纳和关联分类的视频分类方法能有效提高视频分类的精度 .在基于镜头序列的视频分类方面,提出了一个基于序列模式的分类方法(SPAC)和分类序列规则(CSRs,Class Sequence Rules)的概念.SPAC方法将分类规 则挖掘和序列模式挖掘相结合,采用了一个新颖的分类序列规则挖掘策略,为每个分类挖掘频繁序列模式,并将该模式转换为分类序列规则,然后使用规则 匹配算法和平均CSR匹配置信度构建有效的序列数据分类器.实验表明,SPAC方法能有效提高视频分类的精度.在结合分类的视频检索方面,为了克服关键帧 选取的不确定性和缩小搜索空间,提出了结合分类的视频检索方法,它以镜头为单位提取视频特征,在镜头特征的基础上进行检索.该方法利用基于序列模 式的视频分类方法,形成分类视频特征数据库和视频分类规则库,在进行检索之前先对查询视频进行分类,然后在分类数据库中进行检索,以便缩小搜索空 间.结合分类的视频检索方法使用两种视频检索方案,即保留镜头次序的检索和可变镜头数目的检索.实验表明,该方法能够有效提高视频检索的效率和精 度.
7.期刊论文 原野.宋擒豹.沈钧毅 一种集成数据挖掘的自动视频分类方法 -计算机工程2004,30(14) 针对自动视频分类工作中分类预测精度低的问题,提出了一种集成数据挖掘技术的自动视频分类方法.首先进行视频分割,形成了一个视频属性数据库 ;然后分别使用决策树、分类关联规则等技术对视频属性数据库进行数据挖掘,提取出决策树分类规则集和分类关联规则集;最后利用一个规则集的合并裁 减算法来合并这两个分类预测规则集,形成最终的具有更高精度的视频分类规则集.通过实验验证了决策树分类预测规则和分类关联规则具有分类预测的 一致性;同时实验表明,使用合并后的规则集比单独使用一个规则集来预测视频具有更高的预测准确率. 8.学位论文 梁勇林 基于多分类器融合的数据挖掘分类算法研究与应用 2007 数据挖掘分类算法是数据挖掘研究的一个重要课题,已在商业等领域广泛应用。学生信用分类是典型的分类挖掘问题,属于信用分类的范畴,同时 也是一个新的应用研究课题。如何采用多分类器融合的方法综合不同分类器的信息,避免单一分类器可能存在的片面性,从而提高分类的性能,已成为 数据挖掘分类算法研究的热点问题。 本论文依托教育部“春晖计划”科研项目“高校学生个人信用评价管理系统研究”和重庆市自然科学基金计划项目“面向混合数据类型的通用数据 挖掘模式研究”,采用多分类器融合的方法研究数据挖掘分类算法,并将该方法用于学生信用分类。本文的主要研究工作和成果概括如下: 首先,分析了数据挖掘、数据挖掘的分类器、多分类器融合的基本理论和方法,为研究基于多分类器融合的分类算法,及其在学生信用分类数据挖 掘的应用打下基础。 其次,设计了基于AdaBoost的BP神经网络融合分类算法,着重讨论了算法的主要组成部分和基本分类器的构造,以及调整样本权重、训练神经网络 基本分类器、确定基本分类器权重这三个算法流程中的关键问题。 最后,将多分类器融合方法与项目实际需求相结合用于学生信用分类。选择学生信用分类的数据项并进行分类挖掘数据预处理,建立了基于多分类 器融合的学生信用分类模型,通过仿真验证了该算法能有效提高基本分类器的精度和泛化能力,用于学生信用分类是有效和可行的。在高校学生个人信 用评价管理系统的基础上,设计和实现了学生信用分类模块。 本文的研究成果为学生信用分类和助学贷款的发放提供了决策依据,同时也对信用分类的其他方面具有参考价值。 9.会议论文 刘保延.何丽云.谢雁鸣.李霞.匡宏波.易丹辉 基于数据挖掘流程的Logistic回归方法——在亚健康人 群分类及其临床特征分析中的应用 2005 目的:该研究应用数据挖掘流程以及使用Logistic回归建模方法,对亚健康状态的流行病学调查数据进行分析,建立亚健康状态判断模型并对其临床特 征进行了研究.方法:采用从数据理解到数据准备和变量筛选再到选择Logistic回归建模的数据挖掘流程,模型训练过程是首先将全部2613例按7:3的比例 随机分为训练集(1830例)和测试集(783例),在训练集上训练模型,在测试集上对模型准确性进行测试,确定最终的回归方程,从而得到亚健康状态的判别方 程及其临床特征描述.结果:建立了两种Logistic回归模型,在此基础上还应用数据挖掘的思想对回归方程做进一步的测试,得到了分类准确率较高的验证 ,提示亚健康的主要临床特征表现为躯体的疲劳、睡眠不实、记忆力和工作效率下降、饮食二便失调,心理的空虚感和情绪易怒等.结论:该方法在注重利 用回归方程来判断和解释影响因素方面以及在自变量较多,使用传统意义的Logistic回归建模可能出现共线性的情况方面,有很大的优越性.该研究应用数 据挖掘方法,并使用logistic回归建模,以此对亚健康人群进行分类判断,与现场调查中专家对每个被调查者健康状态的判断相比,符合率在90﹪以上,说明 有良好的一致性,还提示亚健康的主要临床特征表现与文献报道一致.该研究还提示一种思路,医学数据的处理不能陷入到方法主义中,要同时兼顾方法的 有效性和医学上的可解释性. 10.学位论文 尹华 数据挖掘项目实施过程研究——基于分类的信用卡挖掘系统应用 2004 当今社会是一个信息爆炸的时代,如何充分利用各种各样的信息为人类服务己显得越来越重要.作为一门新兴的边缘学科——数据挖掘受到了国内外 的普遍关注,成为信息系统和计算机科学领域研究最活跃的前沿领域.该文以广东省重点科技攻关项目"数据仓库开发工具与智能分析平台研究 "(A1020103)为背景,在深入调研与分析国内外数据挖掘相关理论与应用和技术文献的基础上,归纳总结了该领域的主要研究内容和关键技术,评述了数据 挖掘系统开发相关理论与技术的研究现状、存在问题与发展趋势.利用中国银行的数据仓库(广东华际友天信息科技有限公司提供)作为实验数据,主要研 究了数据挖掘过程中的以下几个问题:数据挖掘项目开发过程模型、数据预处理中的数据质量分析标准、数值属性的离散化算法和决策树算法的改进.该 论文的主要研究工作与成果有:1、研究与分析了数据挖掘系统开发所涉及的数据挖掘技术,数据挖掘方法论以及数据挖掘系统等相关理论的研究与应用现 状及发展趋势.2、针对目前的数据挖掘过程模型在实际应用中仅考虑数据挖掘技术,忽略了项目的规划、部署与数据挖掘技术协调的问题,在已有的数据 挖掘过程模型基础上提出了基于项目开发的数据挖掘过程模型,该模型将数据挖掘项目开发过程分为项目规划、挖掘准备、挖掘和项目评估四个阶段.详 细地描述了针对数据挖掘项目开发各阶段(尤其是项目规划阶段)的具体任务,使数据挖掘技术能够更好地应用解决商业问题.3、完成基于数据挖掘分类技 术的信用卡挖掘系统的研究与构建,验证了基于项目的数据挖掘过程理论.针对银行数据中所存在的质量问题提供数据质量分析标准规范;针对某些分类算 法无法处理数值型属性提供属性预先离散化算法;针对挖掘前预先离散化所带来的偏差问题,在决策树算法基础上提出一边建树一边离散化的算法改进.该 文针对上述研究内容,进行了反复的研究与论证,结果表明,该文的理论,方法与技术正确有效,为数据挖掘项目的开发提供了有效的理论指导,具有良好的 实际应用前景. 引证文献(25条) 1.白淼.刘万军 基于聚类技术的股票价格趋势预测[期刊论文]-世界科技研究与发展 2009(3) 2.江秋菊 隐形Web的信息查询系统设计[期刊论文]-图书馆学研究 2009(3) 3.陈伟.程黄金 ID3算法构造学生专升本考试成绩分析决策树[期刊论文]-电脑知识与技术 2009(3) 4.赵阳 Weka系统及其在数据挖掘教学中的应用[期刊论文]-科技信息 2008(30) 5.余志毅.赵青.冯运仿 商业智能在旅游产品销售中的应用分析[期刊论文]-黄石理工学院学报 2008(5) 6.赵亚南 数据挖掘在沈阳世博园旅游业中的应用[期刊论文]-商场现代化 2008(29) 7.陈明忠 基于数据挖掘的成绩管理系统的研究与设计[期刊论文]-福建电脑 2008(5) 8.赵阳.陆静 C4.5算法在大豆致病性分析中的应用[期刊论文]-河北农业科学 2007(6) 9.王冉冉.王刚.黄青松 基于Deep Web的信息采集系统[期刊论文]-计算机技术与发展 2007(10) 10.迟庆云 商业智能软件在汽车销售中的应用[期刊论文]-商场现代化 2007(11) 11.周忠眉 数据挖掘与统计理论[期刊论文]-漳州师范学院学报(自然科学版) 2006(1) 12.刘皛 分类技术在大肠早癌诊断系统中的应用研究[学位论文]硕士 2006 13.胡为成 基于遗传算法的朴素贝叶斯分类研究[学位论文]硕士 2006
14.刘进锋 动态关联规则的理论与应用研究[学位论文]硕士 2006 15.刘军 决策树分类算法的研究及其在教学分析中的应用[学位论文]硕士 2006 16.刘幸东 高校学生就业信息的决策支持系统的应用研究[学位论文]硕士 2006 17.郭玉滨 基于离散度的决策树算法改进[学位论文]硕士 2005 18.黄桂斌 基于神经网络BP算法的学生能力智能评价系统的设计与开发[学位论文]硕士 2005 19.黄桂斌 基于神经网络BP算法的学生能力智能评价系统的设计与开发[学位论文]硕士 2005 20.迟庆云 基于决策树的分类算法研究和应用[学位论文]硕士 2005 21.范洁 基于数据挖掘的在线学习行为评估系统设计与实现[学位论文]硕士 2005 22.王玢 商业银行客户信息管理体系研究[学位论文]硕士 2005 23.孙敏 数据挖掘及在绿地生态评价中的应用研究[学位论文]硕士 2005 24.张磊 基于混合遗传算法的分类规则挖掘方法及其并行实现[学位论文]硕士 2004 25.陈文庆 基于最大熵模型邮件过滤系统的研究与实现[学位论文]硕士 2004 本文链接:http://d.g.wanfangdata.com.cn/Periodical_wjfz2003z2018.aspx 下载时间:2010年6月14日
分享到:
收藏