logo资料库

数据挖掘课程论文.docx

第1页 / 共9页
第2页 / 共9页
第3页 / 共9页
第4页 / 共9页
第5页 / 共9页
第6页 / 共9页
第7页 / 共9页
第8页 / 共9页
资料共9页,剩余部分请下载后查看
1引言
1.1课题背景
1.2国内外研究现状
2数据挖掘常见方法
2.1聚类分析
2.2关联规则
2.3决策树
2.4分类
3存在问题
4发展趋势
5结论
参考文献
课程综合考核报告 研究生课程综合考核报告 学以致用⦁ 用以促学 -1-
课程综合考核报告 数据挖掘 摘 要 数据挖掘又称为数据库中的知识发现,是对数据库中蕴含的、未知的、非平凡 的、有潜在应用价值的模式的提取。数据挖掘在如今这个信息时代扮演着越来越重 要的角色。其旨在从海量数据中挖掘出人们感兴趣的方面,从而辅助人们发现社会 规律并做出一些重大决策。本文着重介绍了数据挖掘方面几大重要的方法,聚类分 析、关联规则、决策树、分类。并提出其当今存在问题。最后对数据挖掘未来的重 点发展趋势作出预测。 关键词:数据挖掘;数据挖掘方法;存在问题;发展趋势; Data mining Abstract Data mining, also known as knowledge discovery in databases, is the extraction of patterns that are implied, unknown, non-trivial, and potentially useful in the database. Data mining is playing an increasingly important role in this information age. It aims to dig out aspects of interest from massive data, thereby helping people discover social laws and make some major decisions. This paper focuses on several important methods of data mining, cluster analysis, association rules, decision trees, and classification. And raised its current problems. Finally, we will make predictions on the key development trends of data mining in the future. Keywords: data mining; data mining methods; existing problems; development trends; 学以致用⦁ 用以促学 -2-
《 数 课程综合考核报告 据 库 新 技 术 》 目录 1 引言......................................................................................................................... - 4 - 1.1 课题背景.......................................................................................................- 4 - 1.2 国内外研究现状...........................................................................................- 4 - 2 数据挖掘常见方法................................................................................................. - 5 - 2.1 聚类分析.......................................................................................................- 5 - 2.2 关联规则.......................................................................................................- 5 - 2.3 决策树...........................................................................................................- 6 - 2.4 分类...............................................................................................................- 6 - 3 存在问题................................................................................................................. - 6 - 4 发展趋势................................................................................................................. - 7 - 5 结论......................................................................................................................... - 8 - 参考文献........................................................................................................................ - 9 - 学以致用 · 用以促学 - 3 -
据 库 新 技 术 》 《 数 课程综合考核报告 1 引言 1.1 课题背景 数据挖掘作为一个新兴的多学科交叉应用领域,正在各行各业的决策支持活动 中扮演着越来越重要的角色[1]。简单来讲,数据挖掘就是对大量数据进行探索分析 以发现其内在联系、模式和规则的过程。(数据挖掘及应用,张俊妮) 计算机与信息技术经历了半个世纪的发展,给人类社会带来了巨大的变化与影 响。信息越来越凸显出其重要性和支配力,它将人类社会由工业化时代推向信息化 时代,人类每天产生的数据量以指数方式增长。数据挖掘技术是 20 世纪 80 年代开 始逐渐产生的,它的迅速发展得益于数据库、数据仓库以及互联网技术等信息技术 的快速发展以及统计学和人工智能等方法在数据分析中的研究和应用。 当然,信息时代巨大的数据量以及社会越来越大的需求也对数据挖掘的发展有 着决定性的作用。如今数据挖掘已经顺利应用在各行各业,如银行业的信贷风险分 析,海关进出口走私、征收关税、货物监管,零售业中店铺选址数据分析,甚至在 医学领域如脑疾病的诊断中也有应用。 1.2 国内外研究现状 数据挖掘又称为知识发现技术(KDD),是美国上世纪八十年代末一次人工智能 会议上提出的,之后在二十世纪九十年代中期在蒙特利尔的第一届知识发现与数据 挖掘国际学术会议上,把数据挖掘技术的主要研究领域定为两个方面,分别为科研 领域的 KDD 以及工程研究领域的 DM[2]。并且从此以后每一年都会召开一次关于 数据挖掘技术研究领域的会议。现如今,国外对 DM 方面的最新发展趋势为对 KDD 的采样算法的更深入的研究,而在实际应用中主要面向的客户包含有保险公 司以及大型数据库的数据挖掘工具研发企业。截至目前为止,对于数据挖掘方面的 应用技术已经相当成熟,已经完成了许多具有较高应用价值的挖掘软件。国内的数 据挖掘方面的研究与应用的起步相对于国外都是较晚的,大约九十年代中后期才有 了这方面基本的框架。国内近几年成立的专门的数据挖掘研究机构有:北京大学 SAS 数据挖掘卓越中心、中国科大博纳数据挖掘中心、厦门大学数据挖掘中心 (DMC)、复旦大学数据挖掘实验室、南京大学机器学习与数据挖掘研究组等[3]。国 内当前比较新的发展方向为以下一些方面。首先,在分类分析技术研究过程中,尝 试完成对相关的集合理论的整体体系进行建设工作,其建立的主要目的就是要对当 前现存的海量数据进行处理。就现在而言,国内在这一方面的软件产业相对来说还 不成熟,原因在于专门对这方面进行研究的人员一般都存在一些具有研究能力的高 学以致用 · 用以促学 - 4 -
《 数 课程综合考核报告 据 库 新 技 术 》 等院校之中,并且研究内容主要集中在 DM 的学习算法及其相关理论方面知识和 实际应用[2]。 2 数据挖掘常见方法 2.1 聚类分析 聚类分析可以分为 K-means Cluster 聚类和系统聚类。 K-means Cluster 聚类第一步会选择 n 个数值型变量参与聚类分析,最后要求的 聚类数为 k 个。第二步,由系统选择 k 个观测量作为聚类的种子。第三步,按照距 离这些类中心的距离最小的原则把所有观测量分配到各类中心所在的类中。第四步, 这样每类中可能有若干个样品,计算每个类中各个变量的均值,以此作为第二次迭 代的中心。第五步,根据这个中心重复第三、第四步,直到中心的迭代标准达到要 求时,聚类过程便结束了[4]。 而系统聚类首先会使数据进行一个标准化操作,然后根据距离方法的选择或者 相似性关联程度的选择去选择测度方法。其次,选择聚类方法,最后输出图形选择。 聚类的算法包括分层聚类,即使用数据的联接规则,反复将数据进行分裂或聚 合,以形成一个层次序列的聚类问题解。分裂法,首先创建 k 个划分,k 为要创建 的划分个数,然后,利用一个循环定位技术通过将对象从一个划分移到另一个划分 来帮助改善划分质量。基于密度的方法,即通过数据密度发现簇。 2.2 关联规则 在数据挖掘的知识模式中,关联规则是比较重要的一种。关联规则是数据中一 种简单但很实用的规则。关联规则属于描述型模式,发现关联规则的算法属于无监 督学习的方法。若两个或多个变量的取值之间存在某种规律性就称为关联。关联可 分为简单关联、时序关联、因果关联,关联分析的目的是找出数据库中隐藏的关联 有两个标准,一个叫支持度,一个叫置信度。支持度指的是两个项集同时出现在所 有事务中的概率,而置信度指的是出现了项集 A 的事务中,项集 B 也同时出现的 概率。如果两个都高于阈值,那么叫做强关联规则,如果只有一个高于阈值,则称 为弱关联规则。关联规则的主要挖掘算法有 Apriori 算法,基于划分的算法,FP-树 频集算法等。关联规则的步骤为,首先找出存在于数据集中的所有频繁项集,即找 出那些支持度不小于事先给定的支持度阈值的项集。其次,在频繁项集的基础上产 生强关联规则,即产生那些支持度和置信度分别大于或等于事先给定的支持度阈值 和置信度阈值的关联规则。 学以致用 · 用以促学 - 5 -
《 数 课程综合考核报告 2.3 决策树 据 库 新 技 术 》 决策树是一种通过对历史数据进行测算,实现对新数据进行分类和预测的算法。 简单来说,决策树算法就是通过对已有明确结果的历史数据进行分析,寻找数据中 的特征,并以此为依据对新产生的数据结果进行预测。 决策树由 3 部分组成,分别为决策节点、分支、叶节点。其中决策树最顶部的 决策节点是根决策节点,每一个分支都有新的决策节点。决策树采用自顶向下的递 归方式,在决策树的内部结点进行属性值的比较,并根据不同的属性值从该结点向 下分支,叶结点是要学习划分的类。 决策树的构建步骤为四步:第一步,绘制树状图,根据已知条件排列出各个方 案和每一个方案的各种自然状态。第二步,将各状态概率及损益值标于概率枝上。 第三步,计算各个方案期望值并将其标于该方案对应状态节点上。第四步,进行剪 枝,比较各个方案的期望值,并标于方案枝上,将期望值小的方案剪掉,所剩的最 后方案为最佳方案。 2.4 分类 分类方法在数据挖掘中是一项非常重要的任务。分类的目的是学会一个分类函 数或分类模型,该模型能把数据库中的数据项映射到给定类别中的某一个类别。分 类可以用于预测,预测的目的是从历史数据记录中自动推导出对给定数据的趋势描 述,从而能对未来数据进行预测。 分类器的构造方法有统计方法、机器学习方法、神经网络方法等。统计方法包 括贝叶斯法和非参数法等。机器学习法包括决策树法和规则归纳法。神经网络法主 要为 BP 算法。 3 存在问题 数据挖掘领域存在如下一些问题 第一,在数据库中挖掘不同类型的知识,由于不同的用户可能对不同类型的知 识感兴趣,数据挖掘系统应当覆盖广谱的数据分析和知识发现任务,包括数据特征、 区分、关联、聚类、趋势、偏差分析和类似性分析。这些任务可能以不同的方式使 用相同的数据库,并需要开发大量数据挖掘技术。 第二,多个抽象层的交互知识挖掘,由于很难准确地知道能够在数据库中发现 什么,数据挖掘过程应当是交互的。对于包含大量数据的数据库,应当使用适当的 选样技术,进行交互式数据探查。交互式挖掘允许用户聚焦搜索模式,根据返回的 结果提出和精炼数据挖掘请求。特殊地,类似于 OLAP 在数据方上做的那样,应 学以致用 · 用以促学 - 6 -
《 数 课程综合考核报告 据 库 新 技 术 》 当通过交互地在数据空间和知识空间下钻、上卷和转轴,挖掘知识。用这种方法, 用户可以与数据挖掘系统交互,以不同的粒度和从不同的角度观察数据和发现模式。 第三,模式评估——兴趣度问题,数据挖掘系统可能发现数以千计的模式。对 于给定的用户,许多模式不是有趣的,它们表示平凡知识或缺乏新颖性。关于开发 模式兴趣度的评估技术,特别是关于给定用户类,基于用户的信赖或期望,评估模 式价值的主观度量,仍然存在一些挑战。使用兴趣度度量,指导发现过程和压缩搜 索空间,是又一个活跃的研究领域。 第四,性能问题,这包括数据挖掘算法的有效性、大规模性和并行处理。 第五,处理噪音和不完全数据:存放在数据库中数据可能反映噪音、例外情况、 或不完全的数据对象。这些对象可能搞乱分析过程,导致数据与所构造的知识模型 过分适应。其结果是,所发现的模式的精确性可能很差。需要处理数据噪音的数据 清理方法和数据分析方法,以及发现和分析例外情况的局外者挖掘方法。 4 发展趋势 经过多年的研究和实践,数据挖掘技术已经吸收了许多学科的最新研究成果, 从而形成了独具特色的研究分支。毋庸置疑,数据挖掘研究和应用具有很大的挑战 性。像其他新技术的发展历程一样,数据挖掘也必须经过概念的提出、概念的接受、 光法研究和探索、逐步应用和大量应用等阶段。分析目前的研究和应用现状,数据 挖掘应该在以下几个方面重点展开工作[5]。 第一,数据挖掘技术与特定商业逻辑的平滑集成问题。谈到数据挖掘和知识发 现技术,人们大多引用“啤酒与尿布”的例子。事实上目前关于数据挖掘很难找到 这样经典的其他例子。数据挖掘和知识发现技术的广阔应用前景,需要有效和显著 的应用实例来证明。 第二,数据挖掘与特定数据存储类型的适应问题,不同的数据存储方式会影响 数据挖掘的具体实现体制、目标定位、技术有效性等。因此,指望通过一种通用的 应用模式适合所有的数据存储方式下发现有效知识是不现实的。 第三,数据挖掘语言与系统的可视化问题,数据的可视化从某种程度上来说, 起到了推动人们主动进行知识发现的作用,因为它可以使人们从对数据挖掘的神秘 感变成可以直观理解的知识和形象的过程。 第四,数据挖掘理论与算法的研究,经过十几年的研究,数据挖掘在继承和发 展相关基础学科,如机器学习统计学等已经有许多巨大的进步。但是这不意味着数 据挖掘理论的探索已经结束。一方面,在这些大的理论框架下有许多面向实际应用 学以致用 · 用以促学 - 7 -
《 数 课程综合考核报告 据 库 新 技 术 》 目标的挖掘理论等待探索和创新。另一方面,随着数据挖掘技术本身和相关技术的 发展,新的挖掘理论的诞生是必然的,而且可能对特定的应用产生推动作用。所以, 在未来,数据挖掘研究和探索的内容是机器丰富和具有挑战性的。 5 结论 不管是研究领域还是商业应用,数据挖掘都是一个热门话题,正得到人们越来 越多的关注,而且数据挖掘技术也正在逐渐地成熟。要想真正做好数据挖掘,应该 从三个方面综合考虑:用数据挖掘来解决的商业问题的类型,为进行数据挖掘所做 的数据准备 , 数据挖掘的各种算法和理论基础[7]。 学以致用 · 用以促学 - 8 -
分享到:
收藏