logo资料库

基于数据挖掘的分类和聚类算法研究及R语言实现.pdf

第1页 / 共89页
第2页 / 共89页
第3页 / 共89页
第4页 / 共89页
第5页 / 共89页
第6页 / 共89页
第7页 / 共89页
第8页 / 共89页
资料共89页,剩余部分请下载后查看
暨南大学硕士学位论文 暨南大学 硕士学位论文 题名(中英对照):基于数据挖掘的分类和聚类算法研究及 R 语言实现 A Study on Algorithm of Classification and Cluster Based on Data Mining and Realization by R programe 作者姓名: 方匡南 指导教师姓名 王斌会 博士 教授 及学位、职称: 学科、专业名称: 经济学 统计学 论文提交日期: 2007 年 5 月 论文答辩日期: 2007 年 6 月 答辩委员会主席: 论文评阅人: 学位授予单位和日期: 1
基于数据挖掘的分类和聚类算法研究及 R 语言实现 独 创 性 声 明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据 我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的 研究成果,也不包含为获得 暨南大学 或其他教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名: 签字日期: 年 月 日 学位论文版权使用授权书 本学位论文作者完全了解 暨南大学 有关保留、使用学位论文的规定,有权保留 并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权 暨 南大学 可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩 印或扫描等复制手段保存、汇编学位论文。 (保密的学位论文在解密后适用本授权书) 学位论文作者签名: 导师签名: 签字日期: 年 月 日 签字日期: 年 月 日 学位论文作者毕业后去向: 工作单位: 电话: 通讯地址: 邮编: 2
暨南大学硕士学位论文 摘要 数据挖掘是个新兴的研究领域,涉及到统计学、数据库、机器学习等众多学科,正以其 强大的功能和广泛的应用受到高度的关注。数据挖掘的方法众多,其中分类、聚类方法是数 据挖掘应用最多的方法,而算法研究是数据挖掘研究领域的重中之重,算法的好坏直接影响 到数据挖掘的效率,所以本文主要深入系统地研究分类、聚类算法。虽然目前研究分类、聚 类算法的文章比较多,但大多数研究只停留在理论上的探讨,并没有相应的算法实现。本文 着重于算法实现的研究,在国内首次利用 R 语言实现数据挖掘算法,因为 R 语言相对于其他 一些软件有着免费、开放源代码、算法更新速度快等优点。 论文第一章介绍数据挖掘的研究背景、目的和意义以及研究方法和框架。第二章主要介 绍比较各分类算法及 R 语言实现,包括基于距离分类的 KNN 算法;基于决策树方法的 C4.5 算法、CART 算法;基于神经网络的 BP 算法。第三章主要介绍比较各种聚类算法及 R 语言实 现。具体介绍了划分方法的 K-means、pam、clara 算法;层次方法的 AGNES、DIANA 算法; 基于密度聚类方法的 DBSCAN 算法;基于模型聚类方法的 COBWEB、SOM 算法;基于模糊 聚类方法的 FCM 算法。第四章实证分析主要以台湾教授蔡欣玲就护理人员离职调查的数据为 例,按数据挖掘的标准流程 CRISP-DM 进行分析,首先对数据作初步统计分析,掌握护理人 员的初步情况,再接着利用聚类方法来分析医院护理人员的离职意愿,然后利用分类方法建 立预测模型。第五章对本文的研究情况进行总结并展望。 关键词: 数据挖掘 分类算法 聚类算法 R 语言实现 3
基于数据挖掘的分类和聚类算法研究及 R 语言实现 ABSTRACT DataMing is a new study realm ,coming down to many subjects such as statistics、 database、 machine learning and so on,it was paid high attention for its strong functions and broad application.DataMining has many methods , classification and cluster are two of the most applied methods,but algorithm study is the most important field in DataMing study ,whether the algorithm is good or bad will directly affect the efficiency of DataMing,so this paper will study deeply and systemly on classification and cluster algorithm.Although papers studying on classification and cluster algorithm are many ,but most of many just discussed on theory ,didn’t realize these algorithms.This paper will emphasize the realization of algorithm and realize algorithm by R programe first in china,because R programe has advantages such as free 、open source and algorithm updating quickly compared to other softwares. The first chapter of paper introduce the study background 、purposes and meaning and means and frame.The second chapter introduce and compare with every algorithm of classification and realized by R programe, including the KNN algorithm based on distance,the C4.5、CART algorithms based on decision tree and the BP algorithm based on neural network.then realize these algorithms by R programe。The third chapter introduce and compared with every algorithm of cluster and realized by R programe,including the K-means、pam、clara algorithms of partitioning methods,the AGNES、DIANA of hierarchical methods,the DBSCAN algorithms of density-based methods,the COBWEB 、SOM algorithms of Model-Based clustering method and the FCM algorithm of Fuzzy clustering method. then realize these algorithms by R programe.The fourth chapter is demonstration , Taking the data about the job-leaving of nurses which collected by professor cai xinling TaiWan as an example,analyse the data following the standard flow CRISP-DM.First,simply analyse the data by statistics and understand the first-step knowloge ,then analyse the job-leaving willing by cluster method and establish predicted model by classification method.The fifth chapter summarize the paper and give expectation . KEYWORD: DataMining classification algorithm cluster algorithm realization by R programe 4
暨南大学硕士学位论文 目录 中文摘要……………………………………………………………………………………………(Ⅰ) 英文摘要……………………………………………………………………………………………(Ⅱ) 目录…………………………………………………………………………………………………(Ⅲ) 1. 绪论………………………………………………………………………………………………1 1.1数据挖掘产生的背景和定义……………………………………………………………………1 1.2数据挖掘国内外发展现状………………………………………………………………………2 1.3 数据挖掘与传统统计之间的关系………………………………………………………………3 1.4 数据挖掘的主要应用分析………………………………………………………………………5 1.5 研究目的和意义…………………………………………………………………………………7 1.6 论文研究框架……………………………………………………………………………………7 1.7 数据挖掘算法的研究工具—R 语言……………………………………………………………8 2. 分类分析方法及 R 语言实现………………………………………………………………… 12 2.1 分类分析的基本概念、步骤及方法……………………………………………………………12 2.2 分类分析的评估标准……………………………………………………………………………13 2.3基于距离分类方法及R语言实现………………………………………………………………14 2.4基于决策树分类方法及R语言实现 2.5基于神经网络分类方法及R语言实现 3. 聚类分析方法及R语言实现……………………………………………………………………28 3.1聚类分析基本概念及要求…………………………………………………………………………28 3.2聚类分析的数据类型及处理方法…………………………………………………………………29 3.3 划分聚类方法及 R 语言实现………………………………………………………………35 3.4 层次聚类方法及 R 语言实现 3.5 基于密度聚类方法及 R 语言实现 3.6 基于模型聚类方法及 R 语言实现 3.7 模糊聚类方法及 R 语言实现 4. 实证分析………………………………………………………………………………………………54 4.1 研究背景……………………………………………………………………………………………54 4.2.数据整理……………………………………………………………………………………………54 4.3.数据初步统计分析…………………………………………………………………………………55 4.4.护理人员离职意愿的聚类及交叉分析……………………………………………………………58 5
基于数据挖掘的分类和聚类算法研究及 R 语言实现 4.5.护理人员离职预测模型的建立……………………………………………………………………61 4.6.小结…………………………………………………………………………………………………65 5. 总结与展望…………………………………………………………………………………………67 5.1 总结 5.2 展望 参考文献 …………………………………………………………………………………………………69 附录 ………………………………………………………………………………………………………71 在学期间发表论文及出版著作清单 致谢 ………………………………………………………………………………………………………82 6
暨南大学硕士学位论文 第 1 章 绪论 1.1 数据挖掘产生的背景和定义 1.1.1 数据挖掘产生的背景 随着信息科技的进步以及电子化时代的到来,人们以更快捷、更容易、更廉价的方式获 取和存储数据,使得数据及信息量以指数方式增长。据粗略估计,一个中等规模企业每天要 产生100MB以上的商业数据。而电信、银行、大型零售业每天产生的数据量以TB来计算。快 速增长的海量数据收集、存放在大型数据库中,如果没有强有力的工具,理解它们已经远远 超出了人的能力范围,收集在大型数据库中的海量而杂乱数据变成了“数据垃圾”、“数据坟 墓”,就如图1.1所示。高维海量的数据增加了传统统计分析方法的难度,这样,对大型数据的 处理和分析的需求显得越来越迫切。如何才能不被信息的汪洋大海所淹没,从中及时发现有 用的知识,提高信息利用率呢?要想使数据真正成为一个公司的资源,只有充分利用它为公司 自身的业务决策和战略发展服务才行。因此,面对“人们被数据淹没,人们却饥饿于知识” 的挑战,从数据库中发现知识(Knowledge Discovery in Databases)及其核心技术——数据 挖掘(Data Mining)便应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。 图 1.1 我们数据丰富但知识贫乏 1.1.2 数据挖掘的定义 数据挖掘有广义和狭义之分。广义的数据挖掘,指从大量的数据中发现隐藏的、内在的 和有用的知识或信息的过程。狭义的数据挖掘是指知识发现中的一个关键步骤,是一个抽取 有用模式或建立模型的重要环节。在参考文献[17,23]中,知识发现是这样定义的:知识发现 7
基于数据挖掘的分类和聚类算法研究及 R 语言实现 是识别出存在于数据库中有效的、新颖的、具有潜在价值的乃至最终可理解的模式的非平凡 过程。数据挖掘则是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信 息的非平凡过程[24,25]。可见这两个术语的内涵大致相同。对这两个术语更严格的区分是在“知 识发现96国际会议”上。Fayyad Piatetsky-Shapiro和Smyth指出[24,25]:“知识发现是从数据 库中发现知识的全部过程,而数据挖掘则是此全部过程的一个特定的关键步骤。这种定义把 数据挖掘的对象定义为数据库”。 数据挖掘更广义的定义是[26]:数据挖掘意味着在一些事实或观察数据的集合中寻找模式的 决策支持过程。实际上,数据挖掘的对象不仅是数据库,也可以是文件系统、或其它任何组 织在一起的数据集合。数据挖掘最新的对象是数据仓库。 一种较为公认的定义是由G.Piatetsky-Shapir等人提出的。数据挖掘是从大量的、不完全 的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的,但又是潜 在有用的信息和知识的过程.如图1.2。这个定义所包含的含义为:数据源必须是大量的、真实 的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;发现 的知识支持特定的被发现的问题。 图 1.2 数据挖掘:在你的数据中搜索知识 1.2 数据挖掘国内外发展现状 1.2.1 国外数据挖掘发展现状 从数据库中发现知识(KDD)一词首次出现在1989年举行的第十一届国际联合人工智能学 术会议上。随后在1991年、1993年和1994年都举行KDD专题讨论会,汇集来自各个领域的研究 人员和应用开发者,集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题。 随着参与人员的不断增多,KDD国际会议发展成为年会。到目前为止,由美国人工智能协会主 办的KDD国际研讨会己经召开了8次,规模由原来的专题讨论会发展到国际学术大会,研究重 8
分享到:
收藏