logo资料库

国外经典教材 数据挖掘教程.pdf

第1页 / 共210页
第2页 / 共210页
第3页 / 共210页
第4页 / 共210页
第5页 / 共210页
第6页 / 共210页
第7页 / 共210页
第8页 / 共210页
资料共210页,剩余部分请下载后查看
数据挖掘  第一章 数据挖掘导论      数据挖掘作为一个新兴的多学科交叉应用领域,正在各行各业的决策支持活动 扮演着越来越重要的角色。本书将介绍数据挖掘()与数据库知识发现 (   )的基本知识,以及从大量有噪声、不完整、 甚至是不一致数据集合中,挖掘出有意义的模式知识所涉及的概念与技术方法。 本章将从数据管理技术演化角度,介绍数据挖掘的由来。以及数据挖掘的作用 和意义。同时还将介绍数据挖掘系统的结构、数据挖掘所获得的知识种类,以及数 据挖掘系统的分类。最后还简要介绍了当前数据挖掘领域尚存在的一些热点问题。              计算机与信息技术经历了半个世纪的发展,给人类社会带来了巨大的变化与影 响。在支配人类社会三大要素(能源、材料和信息)中,信息愈来愈显示出其重要 性和支配力,它将人类社会由工业化时代推向信息化时代。随着人类活动范围的扩 展,生活节奏的加快,以及技术的进步,人们能以更快速更容易更廉价的方式获取 和存储数据,这就使得数据及其信息量以指数方式增长。早在  世纪八十年代,据 粗略估算,全球信息量每隔  个月就增加一倍。而进入九十年代,全世界所拥有的 数据库及其所存储的数据规模增长更快。一个中等规模企业每天要产生  以 上来自各生产经营等多方面的商业数据。美国政府部门的一个典型大数据库每天要 接收约  数据量,在  秒到  分钟时间里,要维持的数据量达到 ,存档 数据达 。在科研方面,以美国宇航局的数据库为例,每天从卫星下载的 数据量就达  之多;而为了研究的需要,这些数据要保存七年之久。九十年 代互联网( )的出现与发展,以及随之而来的企业内部网( )和企业 外部网( )以及虚拟私有网(:    )的产生和应用, 使整个世界互联形成一个小小的地球村,人们可以跨越时空地在网上交换信息和协 同工作。这样,展现在人们面前的已不是局限于本部门,本单位和本行业的庞大数 据库,而是浩瀚无垠的信息海洋。据估计, 年全球数据存贮容量约为二千 , 到  年增加到三百万 ,面对这极度膨胀的数据信息量,人们受到“信息爆炸”、 “混沌信息空间”(   )和“数据过剩”()的巨大压 力。     
数据挖掘  第一章 数据挖掘导论 然而,人类的各项活动都是基于人类的智慧和知识,即对外部世界的观察和了 解,做出正确的判断和决策以及采取正确的行动,而数据仅仅是人们用各种工具和 手段观察外部世界所得到的原始材料,它本身没有任何意义。从数据到知识到智慧, 需要经过分析加工处理精炼的过程。如图- 所示,数据是原材料,它只是描述发 生了什么事情,并不能构成决策或行动的可靠基础。通过对数据进行分析找出其中 关系,赋予数据以某种意义和关联,这就形成所谓信息。信息虽给出了数据中一些 有一定意义的东西,但它往往和人们需要完成的任务没有直接的联系,也还不能做 为判断、决策和行动的依据。对信息进行再加工,即进行更深入的归纳分析,方能 获得更有用的信息,即知识。而所谓知识,可定义为“信息块中的一组逻辑联系, 其关系是通过上下文或过程的贴近度发现的”。从信息中理解其模式,即形成知识。 在大量知识积累基础上,总结出原理和法则,就形成所谓智慧()。事实上, 一部人类文明发展史,就是在各种活动中,知识的创造、交流,再创造不断积累的 螺旋式上升的历史。 客观世界 客观世界 收集 数据 数据 分析 信息 信息 深入分析 知识 知识 决策与行动 图- 人类活动所涉及数据与知识之间的关系描述  计算机与信息技术的发展,加速了人类知识创造与交流的这种进程,据德国《世 界报》的资料分析,如果说  世纪时科学定律(包括新的化学分子式,新的物理关 系和新的医学认识)的认识数量一百年增长一倍,到本世纪  年代中期以后,每五 年就增加一倍。这其中知识起着关键的作用。当数据量极度增长时,如果没有有效 的方法,由计算机及信息技术来帮助从中提取有用的信息和知识,人类显然就会感 到像大海捞针一样束手无策。据估计,目前一个大型企业数据库中数据,约只有百 分之七得到很好应用。因此目前人类陷入了一个尴尬的境地,即“丰富的数据”(  )而“贫乏的知识( )。        
数据挖掘  第一章 数据挖掘导论 早在八十年代,人们在“物竞天择,适者生存”的大原则下,就认识到“谁最 先从外部世界获得有用信息并加以利用,谁就可能成为赢家”。而今置身市场经济且 面向全球性剧烈竞争的环境下,任何商家的优势不单纯地取决于如产品、服务、地 区等方面因素,而在于创新。用知识作为创新的原动力,就能使商家长期持续地保 持竞争优势。因此要能及时迅速地从日积月累庞大的数据库中,以及互联网上获取 与经营决策相关的知识,自然而然就成为满足易变的客户需求以及因市场快速变化 而引起激烈竞争局面的唯一武器。因此,如何对数据与信息快速有效地进行分析加 工提炼以获取所需知识,就成为计算机及信息技术领域的重要研究课题。 事实上计算机及信息技术发展的历史,也是数据和信息加工手段不断更新和改 善的历史。早年受技术条件限制,一般用人工方法进行统计分析和用批处理程序进 行汇总和提出报告。在当时市场情况下,月度和季度报告已能满足决策所需信息要 求。随着数据量的增长,多数据源所带来的各种数据格式不相容性,为了便于获得 决策所需信息,就有必要将整个机构内的数据以统一形式集成存储在一起,这就是 形成了数据仓库( )。数据仓库不同于管理日常工作数据的数据库, 它是为了便于分析针对特定主题(  )的集成化的、时变的(  ) 即提供存贮  年或更长时间的数据,这些数据一旦存入就不再发生变化。 数据仓库的出现,为更深入对数据进行分析提供了条件,针对市场变化的加速! 人们提出了能进行实时分析和产生相应报表的在线分析工具 "#$(" # $   )。"#$ 能允许用户以交互方式浏览数据仓库内容,并对其中 数据进行多维分析,且能及时地从变化和不太完整的数据中提取出与企业经营活动 密切相关的信息。例如:"#$ 能对不同时期、不同地域的商业数据中变化趋势进 行对比分析。 "#$ 是数据分析手段的一大进步,以往的分析工具所得到的报告结果只能回 答“什么”(),而 "#$ 的分析结果能回答“为什么”( )。但 "#$ 分析 过程是建立在用户对深藏在数据中的某种知识有预感和假设的前提下,由用户指导 的信息分析与知识发现过程。但由于数据仓库(通常数据贮藏量以  计)内容来 源于多个数据源,因此其中埋藏着丰富的不为用户所知的有用信息和知识,而要使 企业能及时准确地做出科学的经营决策,以适应变化迅速的市场环境,就需要有基 于计算机与信息技术的智能化自动工具,来帮助挖掘隐藏在数据中的各类知识。这 类工具不应再基于用户假设,而应能自身生成多种假设;再用数据仓库%或大型数据 库&中的数据进行检验或验证;然后返回用户最有价值的检验结果。此外这类工具还 应能适应现实世界中数据的多种特性(即量大、含噪声、不完整、动态、稀疏性、 异质、非线性等)。要达到上述要求,只借助于一般数学分析方法是无能达到的。多 年来,数理统计技术方法以及人工智能和知识工程等领域的研究成果,诸如推理、  
数据挖掘  第一章 数据挖掘导论 机器学习、知识获取、模糊理论、神经网络、进化计算、模式识别、粗糙集理论等 等诸多研究分支,给开发满足这类要求的数据深度分析工具提供了坚实而丰富的理 论和技术基础。 九十年代中期以来,许多软件开发商,基于数理统计、人工智能、机器学习、 神经网络、进化计算和模式识别等多种技术和市场需求,开发了许多数据挖掘与知 识发现软件工具,从而形成了近年来软件开发市场的热点。目前数据挖掘工具已开 始向智能化整体数据分析解决方案发展,这是从数据到知识演化过程中的一个重要 里程碑。如图- 所示。 数据 数据库 管理 数据仓库  数据挖掘 数据智能 分析 解决方案 图- 数据到知识的演化过程示意描述       随着计算机硬件和软件的飞速发展,尤其是数据库技术与应用的日益普及,人 们面临着快速扩张的数据海洋,如何有效利用这一丰富数据海洋的宝藏为人类服务, 业已成为广大信息技术工作者的所重点关注的焦点之一。与日趋成熟的数据管理技 术与软件工具相比,人们所依赖的数据分析工具功能,却无法有效地为决策者提供 其决策支持所需要的相关知识,从而形成了一种独特的现象“丰富的数据,贫乏的 知识”。为有效解决这一问题,自二十世纪 ' 年代开始,数据挖掘技术逐步发展起 来,数据挖掘技术的迅速发展,得益于目前全世界所拥有的巨大数据资源以及对将 这些数据资源转换为信息和知识资源的巨大需求,对信息和知识的需求来自各行各 业,从商业管理、生产控制、市场分析到工程设计、科学探索等。数据挖掘可以视 为是数据管理与分析技术的自然进化产物,如图- 所示。 自六十年代开始,数据库及信息技术就逐步从基本的文件处理系统发展为更复 杂功能更强大的数据库系统;七十年代的数据库系统的研究与发展,最终导致了关 系数据库系统、数据建模工具、索引与数据组织技术的迅速发展,这时用户获得了 更方便灵活的数据存取语言和界面;此外在线事务处理("#:      )手段的出现也极大地推动了关系数据库技术的应用普及,尤其是在大数 据量存储、检索和管理的实际应用领域。 自八十年代中期开始,关系数据库技术被普遍采用,新一轮研究与开发新型与  
数据挖掘  第一章 数据挖掘导论 强大的数据库系统悄然兴起,并提出了许多先进的数据模型:扩展关系模型、面向 对象模型、演绎模型等;以及应用数据库系统:空间数据库、时序数据库、多媒体数 据库等;日前异构数据库系统和基于互联网的全球信息系统也已开始出现并在信息 工业中开始扮演重要角色。 数据收集与数据库创建 数据收集与数据库创建 数据收集与数据库创建 数据收集与数据库创建 (年代或更早) - 基础文件处理 数据库管理系统 数据库管理系统 数据库管理系统 数据库管理系统 (年代) - 网络和关系数据库系统 - 数据建模工具 - 索引和数据组织技术 - 查询语言和查询处理 - 用户界面与优化方法 - 在线事务处理 先进数据库系统 先进数据库系统 先进数据库系统 先进数据库系统 ('年代中期至今) - 先进数据模型(扩展关 系、面向对象、对象关系) - 面向应用(空间、时 间、多媒体、知识库) 数据仓库和数据挖掘 数据仓库和数据挖掘 数据仓库和数据挖掘 数据仓库和数据挖掘 ('年代后期至今) - 先进数据模型(扩展关 系、面向对象、对象关系) - 面向应用(空间、时 间、多媒体、知识库) 新一代信息系统 新一代信息系统 新一代信息系统 新一代信息系统 (年之后) 图- 数据挖掘进化过程示意描述 被收集并存储在众多数据库中且正在快速增长的庞大数据,已远远超过人类的 处理和分析理解能力(在不借助功能强大的工具情况下),这样存储在数据库中的数 据就成为“数据坟墓”,即这些数据极少被访问,结果许多重要的决策不是基于这些 基础数据而是依赖决策者的直觉而制定的,其中的原因很简单,这些决策的制定者  
数据挖掘  第一章 数据挖掘导论 没有合适的工具帮助其从数据中抽取出所需的信息知识。而数据挖掘工具可以帮助 从大量数据中发现所存在的特定模式规律,从而可以为商业活动、科学探索和医学 研究等诸多领域提供所必需的信息知识。数据与信息知识之间的巨大差距迫切需要 系统地开发数据挖掘工具,来帮助实现将“数据坟墓”中的数据转化为知识财富。               数据挖掘( ,简称 ),简单地讲就是从大量数据中挖掘或抽取 出知识,数据挖掘概念的定义描述有若干版本,以下给出一个被普遍采用的定义描 述: 数据挖掘,又称为数据库中知识发现(   ,简 称 ),它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识 的复杂过程。数据挖掘的全过程定义描述如图- 所示。 评估与表示 数据挖掘 知识 选择与转换 模式 清洗与集成 数据 仓库 特定数 据集 数据库 图- 知识挖掘全过程示意描述  如图- 所示,整个知识挖掘( )过程是由若干挖掘步骤组成,而数据挖 掘仅是其中的一个主要步骤。整个知识挖掘的主要步骤有: ♦ 数据清洗数据清洗数据清洗数据清洗(  ),其作用就是清除数据噪声和与挖掘主题明显无 关的数据; ♦ 数据集成数据集成数据集成数据集成(  ),其作用就是将来自多数据源中的相关数据组  
数据挖掘  第一章 数据挖掘导论 合到一起; ♦ 数据转换数据转换数据转换数据转换(  ),其作用就是将数据转换为易于进行数据挖 掘的数据存储形式; ♦ 数据挖掘数据挖掘数据挖掘数据挖掘()! 它是知识挖掘的一个基本步骤,其作用就是利用 智能方法挖掘数据模式或规律知识; ♦ 模式评估模式评估模式评估模式评估(  ),其作用就是根据一定评估标准(   )从挖掘结果筛选出有意义的模式知识; ♦ 知识表示知识表示知识表示知识表示( ),其作用就是利用可视化和知识表达技 术,向用户展示所挖掘出的相关知识。 尽管数据挖掘仅仅是整个知识挖掘过程中的一个重要步骤,但由于目前工业 界、媒体、数据库研究领域中,“数据挖掘”一词已被广泛使用并被普遍接受,因此 本书也广义地使用“数据挖掘”一词来表示整个知识挖掘过程,即数据挖掘就是一 个从数据库、数据仓库或其它信息资源库的大量数据中发掘出有趣的知识。 可视化用户接口 模式知识评估 数据挖掘引擎 知识库 数据库或数据仓库 服务器 数据清洗 数据集成 数据过滤 数据库 数据仓库 图- 数据挖掘系统总体结构描述  基于图- 所示的数据挖掘过程,一个典型的数据挖掘系统(如图- 所示) 主要包含以下主要部件: ♦ 数据库数据库数据库数据库、数据仓库或其它信息库 、数据仓库或其它信息库,它表示数据挖掘对象是由一个(或组) 、数据仓库或其它信息库 、数据仓库或其它信息库  
数据挖掘  第一章 数据挖掘导论 数据库、数据仓库、数据表单或其它信息数据库组成。通常需要使用数据 清洗和数据集成操作,对这些数据对象进行初步的处理; ♦ 数据库或数据仓库服务器 数据库或数据仓库服务器,这类服务器负责根据用户的数据挖掘请求,读 数据库或数据仓库服务器 数据库或数据仓库服务器 取相关的数据; ♦ 知识库知识库知识库知识库,此处存放数据挖掘所需要的领域知识,这些知识将用于指导数据 挖掘的搜索过程,或者用于帮助对挖掘结果的评估。挖掘算法中所使用的 用户定义的阈值就是最简单的领域知识; ♦ 数据挖掘引擎 数据挖掘引擎,这是数据挖掘系统的最基本部件,它通常包含一组挖掘功 数据挖掘引擎 数据挖掘引擎 能模块,以便完成定性归纳、关联分析、分类归纳、进化计算和偏差分析 等挖掘功能; ♦ 模式评估模块 模式评估模块,该模块可根据趣味标准(  ),协助数 模式评估模块 模式评估模块 据挖掘模块聚焦挖掘更有意义的模式知识。当然该模块能否与数据挖掘模 块有机结合,与数据挖掘模块所使用的具体挖掘算法有关。显然若数据挖 掘算法能够与知识评估方法有机结合将有助提高其数据挖掘的效率; ♦ 可视化用户界面 可视化用户界面,该模块帮助用户与数据挖掘系统本身进行沟通交流。一 可视化用户界面 可视化用户界面 方面用户通过该模块将自己的挖掘要求或任务提交给挖掘系统,以及提供 挖掘搜索所需要的相关知识;另一方面系统通过该模块向用户展示或解释 数据挖掘的结果或中间结果;此外该模块也可以帮助用户浏览数据对象内 容与数据定义模式、评估所挖掘出的模式知识,以及以多种形式展示挖掘 出的模式知识。 从数据仓库的角度来看,数据挖掘可以被认为是在线分析处理("#$)的高 级阶段,但是基于多种数据理解先进技术的数据挖掘,其数据分析能力要远超过以 数据汇总为主的数据仓库在线分析处理功能。 目前市场有许多所谓“数据挖掘系统”,实际上它们仅仅是一个基于统计的数 据分析工具,或一个机器学习工具。数据挖掘有机结合了来自多学科技术,其中包 括:数据库、数理统计、机器学习、高性能计算、模式识别、神经网络、数据可视 化、信息检索、图像与信号处理、空间数据分析等,这里我们强调数据挖掘所处理 的是大规模数据,且其挖掘算法应是高效的和可扩展的。通过数据挖掘,可从数据 库中挖掘出有意义的知识、规律,或更高层次的信息,并可以从多个角度对其进行 浏览察看。所挖掘出的知识可以帮助进行决策支持、过程控制、信息管理、查询处 理等等。因此数据挖掘被认为是数据库系统最重要的前沿研究领域之一,也是信息 工业中最富有前景的数据库应用领域之一。        
分享到:
收藏