logo资料库

5种数据挖掘工具分析比较.doc

第1页 / 共11页
第2页 / 共11页
第3页 / 共11页
第4页 / 共11页
第5页 / 共11页
第6页 / 共11页
第7页 / 共11页
第8页 / 共11页
资料共11页,剩余部分请下载后查看
内容来自:文档资料库 数据挖掘工具调查与研究 姓名: 姓名:马蕾 学号: 学号:18082703 5 种数据挖掘工具分别为: 种数据挖掘工具分别为: 1、 Intelligent Miner 2、 SAS Enterpreise Miner 3、SPSS Clementine 4、马克威分析系统 5、GDM Intelligent Miner 综述: 一、综述 IBM 的 Exterprise Miner 简单易用,是理解数据挖掘的好 的开始。能处理大 数据量的挖掘,功能一般,可能仅满足要求.没有数据探索功能。与其他软件 接口差,只能 用 DB2,连接 DB2 以外的数据库时,如 Oracle, SAS, SPSS 需 要安装 DataJoiner 作为中 间软件。难以发布。结果美观,但同样不好理解。 基本内容: 二、基本内容:一个挖掘项目可有多个发掘库组成;每个发掘库包 含多个对象和函数 对象: 对象: 数据:由函数使用的输入数据的名称和位置。 离散化:将记录分 至明显可识别的组中的分发操作。 名称映射:映射至类别字段名的值的规范。 结果:由函数创建的结果的名称和位置。 分类:在一个项目的不同类别之间的关 联层次或点阵。 值映射:映射至其它值的规范。 函数: 函数: 发掘:单个发 掘函数的参数。 预处理:单个预处理函数的参数。 序列:可以在指定序列中启 动的几个函数的规范。 统计:单个统计函数的参数。 统计方法和挖掘算法: 统计方法和挖掘算法:单变量曲线,双变量统计,线性回归,因子分析,主变 量分析,分类, 分群,关联,相似序列,序列模式,预测等。 处理的数据类 型: 处理的数据类型:结构化数据(如:数据库表,数据库视图,平面文件) 和半结构化或非结 构化数据 (如:顾客信件,在线服务,传真,电子邮件,网 页等) 。 架构: 架构:它采取客户/服务器(C/S)架构,并且它的 API 提供 了 C++类和方法 Intelligent Miner 通过其独有的世界领先技术 通过其独有 的世界领先技术,例如自动生成典型数据集、发现关联、发现 序列规律、概念 性分类和可视化呈现,可以自动实现数据选择、数据转换、数据挖掘和结果 呈 现这一整套数据挖掘操作。若有必要,对结果数据集还可以重复这一过程,直 至得到满意 结果为止。 三、现状:现在,IBM 的 现状: Intelligent Miner 已形成系列,它帮助用户从企业数据资产中 识别和提炼有价值的信息。它包括分析软件工具——Intelligent Miner for Data 和 IBM Intelligent Miner forText , 帮助企业选取以前未知的、 有 效的、 可行的业务知识——
2 如客户购买行为, 隐藏的关系和新的趋势, 数据来源可以是大型数据库和企 业内部或 Internet 上的文本数据源。然后公司可以应用这些信息进行更好、 更准确的决策,获得竞争优势。 四、挖掘案例:(客户细分) 挖掘案例 1. 商业需求:: 客户细分 2. 数据理解:根据用户基本信息(实际上还包括客户 消费行为,人口统计信息等,本示例为简单 起见,只在这个表的数据基础上进行 挖掘)进行客户细分 3. 数据准备: 4. 建模: 选择挖掘模型(比如是分群,还 是分类) 确定模型输入,需要做的处理,结果分析 选择模型输入字段: 挖掘 模型选择: 神经分群发掘函数使用了一个 Kohonen 特征映射神经网络。 Kohonen 特征映射使用 一个称作自组织的进程来将相似的输入记录组合在一 起。 您可以指定群集的数目和遍数。 这 些参数控制进程时间和将数据记录分 配到群集时使用的粒度程度。 分群的主任务是为每个群 集查找中心。此中心 也称为称为原型。对于每个在输入数据中的每个记录,神经分群发掘函 数计算 和记录计分最近的群集原型。 每个数据记录的计分是用到群集原型的欧几里得 距离表示的。计分越靠近 0,与群 集原型的相似性程度就越高。计分越高,记 录与群集原型就越不相似。输入数据的每个 遍历,中心被调整来达到更好的整 个分群模型质量。在发掘函数运行时,进度指示器显 示每次遍历的质量改进状 况。 4. 建模:选择模型: 指定输入数据: 3 选择分群方式: 4 分群模型设置概要: 5. 运行模型 运行模型: 点击蓝色按钮运行模型,运行模型进程: : 6.模型结果分析:运行结果(群) 模型结果分析: 5 运行结果,统计: 从 上 面 两 个 图 中 我 们 可 以 看 出 一 些 有 意 义 的 分 群 , 根 据 consume_level 和 online_duration 分群有一定意义。而比如用 gender 进行的分群我们可以直接观察出来, 意义不大,只有两个大类,可以直观地看 出男女比例: consume_level(消费层次)的群特征信息: 可以看出在第 2、
类消费层次占的比重较大。 3 6 在线通话时长的一点分析: 从上面图中可以看出, 大部分客户每一个月消费是 50 元以下的。 50-200 各 区间逐步递 7 减;而一个月消费 300 以上的,也从 3%,8%,12%逐渐递增的态势。挖掘的这 些消 费 分群信息,对有针对性的营销,提前对客户进行细分是很有意义的。 6. 保存调出模型: . 保存调出模型: 客户分类挖掘示例(待续 : 客户分类挖掘示例 待续): 待续 采用一样的数 据,对客户消费水平进行分类预测(consume_level) 混淆矩阵: 分类百分率: 8 SAS Enterprise Miner 一、综述:SAS 完仝以统计理论为基础,功能强大,有完备的数据探索功能。 但难以掌 综述: 握,要求是高级统计分析专业人员.结果难以理解。价格也极其昂贵,而且是 租赁模式。 二、基本内容: 基本内容: 统计模块,使之具有杰出的力量和影响,它还通过大量数据挖掘算法增强了那 些 支持 SAS 统计模块 模块。SAS 使用它的 SEMMA 方法学以提供一个能支持 包括关联、聚类、决策树、神经元 网络和统计回归在内的广阔范围的模型数据 挖掘工具。 SAS Entelprise Miner 设计为被初学者和有经验的用户使用。它 的 GUI 界面是数据流驱动 的, 且它易于理解和使用。 它允许一个分析者通 过构造一个使用链接连接数据结点和处理结 点的可视数据流图建造一个模型。 另外,此界面允许把处理结点直接插入到数据流中。由于 支持多种模型,所以 Enterprise Miner 允许用户比较(评估)不同模型并利用评估结点选择最 适合 的。另外,Enterprise Miner 提供了一个能产生被任何 SAS 应用程序所访问 的评分模 型的评分结点。 用户配置: 三 、用户配置 SAS Enterprise Miner 能运行在客户/服务器上或
(计算机 的外围设备)能独立运行的配置上。 此外, 在客户/服务器模式下, Enterprise Miner 允许把服务器配置成一个数据服务器、计算服务器或两者的 综合。 EntepnseMiner 被设计成能在所有 SAS 支持的平台上运行。该结构支 持胖 客户机配置(要求客户机上的完全 SAS 许可证)以及瘦客户机(浏览器)版 本。 数据挖掘技术、 算法和应用程序: 四 、 数据挖掘技术 、 算法和应用程 序 : SAS Entelprise Miner 支持关联、聚类、决策树、神经元网络和经典的统计 回归技术。 五 、 前景: 它在统计分析软件上的丰富经验,所以 SAS 开发出了一个全 前 景 : 功能、易于使用、可靠和易于管理的系统。模型选项和算法所覆盖的广阔 范 围、设计良好的用户界面、现存数据商店的能力和在统计分析市场所占 的巨大 份额(允许一个公司获得一个增加的 SAS 部件而不是一个新的工具) 都可能使 SAS 在数据挖掘市场上取得领先位置。由于它最近刚投放市场, 所以在写此书 时只能获得少数公布的用户基推测试。这些结果表明 Enterprise Miner 在可 伸缩性、预测准确性和处理时间上都表现得很好。总 的来说,此工具适合于企 业在数据挖掘方面的应用以及 CBM 的全部决策支 持应用。 六、案例: 案例: 9 SAS 软件成就安利(中国)高效物流 安利(中国)透过库存优化系统提升服务 效率 20%,客户满意率指标达到 97% 安利是国际上知名的直销企业,1992 年 进入中国市场。目前,中国是安利在全球最大的市 场,安利(中国)2008 年 的销售业绩达 179 亿元人民币,占安利全球收入的 1/3 强,并且 保持着强劲 的增长势头。目前,安利(中国)拥有 1000 多种产品,全国共有 229 间店 铺、 29 个配送中心、22 个外仓和 1 个 4 万平方米的物流中心,仓库总面积 达 10 万平方米,存 储量达 5.6 万个卡板,每年的运输里程 1,396 万公里, 相当于绕地球 349 圈。安利(中国) 特有的“店铺+直销+经销”的多元化营销 模式和频繁而快速的的市场促销活动, 加大了库存管 理的难度,要求运营流 程和相关人员具有更高的灵活应变能力。 为了更好地配合安利业务的高速发 展, 使得信息流的发展能够与未来企业供应链的飞速发展 相适应并具有一定 的前瞻性,安利(中国)管理层决定进一步深化当前的商业分析应用,在 供应 链管理方面引入 SAS 技术,建立“库存优化系统 (Inventory Optimization System,缩 写 IOS )”,统筹考虑各种相互约束的条件,将“正确的产品”以 “正确的成本”在“正确的时间” 送达“正确的地点”,实现对复杂市场环境 的快速反应,从而进一步提高企业的市场竞争力。 库存优化系统(IOS)的主要功能 IOS 是一种极为有效的库存管理工具, 它提 供了基于服务水平、 交货时间和成本等用户指定 的约束条件测算最佳库存水
平和模式的能力。具体功能如下: 1.多层次的产品需求预测 通过业内领先的 SAS 时间序列分析技术,根据过往历史上的相关销售数据,对不同层次的 商 品、地区进行自动诊断、建模、执行以及调整预测,可以精密到具体产品、店 铺级别的需 求数据,预测未来的客户需求量。IOS 采集了安利(中国)历史三 年、超过 7 千万张订单的 数据进行分析。 预测的结果由于考虑了需求的变动 趋势、季节性波动、产品促销、产品属性等因素,并基于 最为健壮的模型库, 因此生成的预测数据更为准确。 并且具有高可扩展性、 灵活变动等特点。 10 2.考虑全面的智能排车 系统根据预测的需求量,运用优化模型计算出每个地区 的补货频率。同时,结合车型、运载 量、运输成本等相关运输数据,计算出未 来一周最优的排车计划。排车计划会结合各补货计 划人员负责的区域,以均衡 各人的工作安排,及更妥善的人力分配。 系统中直观、 清晰地展现出当前的 排车计划、 车辆信息等。 排车计划由于受到公司策略安排、 产品促销、库存 调配、人手安排等因素的影响,具有一定的变动性。计划人员可以灵活方便 地 对其进行变动,而这些变动又被系统纪录起来,并区分成计划调整和临时变动 两种状态, 以作为日后排车的依据和对排车效果分析的数据源。 3.最优化的 库存补货策略 库存补货策略首先要基于多层次的补货网络, 从成品生产的工 厂到物流中心到外仓, 从外仓 到店铺。 综合考虑各个产品的预测需求量和需 求的变动性、 运输时间、 包装规格、 库存成本、 运输成本、运输频率、客 户服务水平、库存策略、最小订货量等影响因素后,更精细地动态 制定库存补 货策略, 包括重订购水平以及订购至水平。 这些补货策略能细致到具体每个 仓库、 每间店铺中的每个产品,而且能随着时间的推移动态适应市场变化,并 进行相应的调整。 4.指标分析和预警功能 此功能为整个库存管理提供日常所需的 KPI(Key Performance Indication)报表和紧急状 态预警。包括库存水平分析、采购建 议分析、存货预警、暂时缺货 EAS(Emerging Alert 11 System)分析、运输空载率、产品销售监控等一系列分析数据和报表。 SPSS(Statistical Product and Service Solutions) 一、综述:“统计产品与服务解决方案”软件。最初软件全称为“社会科学统 计软件包”。但 综述: 是随着 SPSS 产品服务领域的扩大和服务深度的增加, SPSS 公司已于 2000 年正式将英文 全称更改为“统计产品与服务解决方案”。 SPSS 是世界上最早 采用图形菜单驱动界面的统计软件, 该软件应用于自然科学、 技术科学、社 会科学的各个领域,世界上许多有影响的报刊杂志纷纷就 SPSS 的自动 统计绘 图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价与称赞。 迄今 SPSS 软件已有 30 余年的成长历史。全球约有 25 万家产品用户,它们 分布于 通讯、医疗、银行、证券、保险、制造、商业、市场研究、科研教育等
多个领域和行 业,是世界上应用最广泛的专业统计软件。 特点: 二 、 特点 : 它最突出的特点就是操作界面极为友好,输出结果美观 漂亮。 它将几乎所有的功能都以统一、规范的界面展现出来,使用 Windows 的窗口方 式展 示各种管理和分析数据方法的功能,对话框展示出各种功能选择项。用户 只要掌握一 定的 Windows 操作技能,粗通统计分析原理,就可以使用该软件 为特定的科研工作 服务。SPSS 采用类似 EXCEL 表格的方式输入与管理数据, 数据接口较为通用,能 方便的从其他数据库中读入数据。其统计过程包括了常 用的、较为成熟的统计过程, 完全可以满足非 统计专 业人士的工作需 要。 输 出结果十分美观 ,存储 时则是专用的 SPO 格式,可以转存为 HTML 格式 和文本格式。对于熟悉老版本编程运行方式的用 户。 SPSS 还特别设计了语法 生成窗口,用户只需在菜单中选好各个选项,然后按“粘贴” 按钮就可以自动 生成标准的 SPSS 程序。极大的方便了中、高级用户。 SPSS 输出结果虽然漂 亮,但不能为 WORD 等常用文字处理软件直接打开,只能采 用拷贝、粘贴的方 式加以交互。这可以说是 SPSS 软件的缺陷。 12 功能: 三 、功能 :增强的数据管理功能。完善的结果报告功能。从 10 版 起,对数据和结果的 图表呈现功能一直是 SPSS 改进的重点。 Complex Samples 模块增加统计建模 功能。Complex Samples 是 12 版中新增的模块,用 于实现复杂抽样的设计方 案, 以及对相应的数据进行描述。 一般线形模型将会被完整地引入 复杂抽样 模块中,以实现对复杂抽样研究中各种连续性变量的建模预测功能。 Classification Tree 模块。这个模块实际上就是将以前单独发行的 SPSS AnswerTree 软件 整合进了 SPSS 平台。 Classification Tree 模块基于数据 挖掘中发展起来的树结构模型对 分类变量或连续变量进行预测,可以方便、快 速的对样本进行细分,不需要用户有太多统计 专业知识。 更好的 SPSS 系列 产品兼容。能够针对市场细分工作提供更为完整的方法体系。 前景: 通过对 SPSS 在质量信息管理中的应用进行了初步探讨, 不难发现尽 管 SPSS 四、 前景: 是一种通用的社会科学统计软件, 但非常适用于质量数据的处理和分析, 广 大质量工作者可 以逐步探索 SPSS 在质量管理中的新用途,大幅度改善质量管 理的效率和效果,帮助管理 者做出最优决策,最大限度地提高产品和服务质 量。它的前景十分可观。 五、案例: 案例: 机械设备维护保障预测性分析-Sikorsky 航空公司 公司介绍: 公司介绍:位 于 Stratford, Conn,是一家世界领先的直升机设计、制造和服务公司。该公 司 的直升机业务涵盖了商业、工业及军事等行业,美国空军所有 5 个分支机 构、世界上 40 多 个国家的军事及商业机构均选择采购使用 Sikorsky 公司的 直升机。
该公司的愿景反映了其对安全和创新的长期承诺:“我们先进的飞机及技术把 任何时间任何 地点的人们安全地送回家。”自从 1944 年全世界第一起直升机 营救事例起,Sikorsky 的直 升机估计已经拯救了 200 多万条生命。 Sikorsky 公司是位于 Hartford, Conn 的美国联合技术集团的下属公司之一。 美国联合技术 13 集团是一家为航天航空及建筑系统行业提供高技术产品和支持服务的集团。 面 临的问题 如何预测机器零件损耗并及时更新以保证安全生产 如何管理机器设 备库存以保证及时供货的同时又使管理成本降到最低 如何降低机器设备的损 耗,延长机器设备使用寿命的同时又保证安全生产 如何摸清机器设备使用的各 种成本,进行成本管理并直接降低成本 如何充分分析挖掘企业现有所有数据 源,包括结构性数据及非结构性数据(文本数据) ,并 进行预测性分析 产品 选择 Sikorsky 提供客户各种各样的维护保障项目帮助客户以可知的成本运营 飞机及提高飞机的 可利用性。其中的全面保障项目(TAP) ,涵盖了飞机相关 零件及服务中 98%的成本费用。 Sikorsky 公司寻求一种软件及解决方案帮助 直升机客户识别和预测飞机设备的维护保障并 最终提高客户的满意度。 Sikorsky 航空公司已选择了使用 SPSS 公司市场领先的预测性分析软件及解决 方案,该软 件通过积极主动地预测直升机客户的预期需求极大地提高了客户的 忠诚度。 应用产品: ; 应用产品:SPSS 统计分析产品 ;Clementine 数据 挖掘产品(包括数据挖掘和文本挖掘) SPSS 企业级预测平台 PES; 解决方 案: 解决方案:项目的解决方案按照行业内公认的方法论—CRISP-DM 分为六 个步骤:业务理 解,数据理解,数据准备,建模,评估以及部署。 商业理解 预测飞机零部件损耗并及时更新零部件保证安全飞行 管理飞机零部件库存,降 低库存成本,但保证及时供货 摸清飞机设备成本,成本管理,降低成本 规范 飞行员的驾驶操作降低零部件损耗并保证安全飞行 整合各种资源,提高飞机的 可利用性 数据理解及数据准备 正常飞行时飞机监测系统所收集到的数据 飞行 员驾驶操作日志记录,包括错误操作记录及正确操作记录 机务人员操作日志记 录,包括错误操作记录及正确操作记录 飞机零部件损耗数据 飞机各零部件成 本 飞行器维护保障数据 根据数据的结构化程度可分为结构性数据如每架直升 机的历史数据和现今数据, 非结构性数 据包括飞行日志和机务人员错误日志 记录 数据颗粒度:日、月、季、年 总之,从所有数据源收集信息,并通过 Clementine 进行数据清理及数据审 核,分析缺失值 并填补之,形成可供建模的清洁完整数据。 数据审核及缺失值填补界面 数据的标准化及转换界面 14 数据建模 关联规则:飞行员的驾驶操作方法(包括正确操作方法和错误操作方 法)与飞机零部件损耗 之间的关系, 飞行员日志与零部件损耗之间的关系,
机务人员日志与零部件损耗之间的关系。 如什么样的驾驶操作方法会使零部件 损耗特别快, 什么样的驾驶操作方法可降低零部件的损 耗。对这些关系的深 入理 Sikorsky 公司可预先采取行动措施降低飞机的直接维护成本 时间序列分 析:飞机各种零部件使用的生命周期,根据时间序列的分析,发现飞机各种零 部 件该更换的信息,及时更换零部件,保障飞行安全 异常监测:对零部件及 机务人员的异常情况进行侦测,发出预警信息,提高飞行的安全性 回归分析: 通过回归建模包括 logistic 回归和多元回归,拟合飞机成本消耗的模型,包 括各 个组成成本的消耗及影响因素,降低成本。同时也可对库存管理进行拟 合,探讨影响库存的 各个因素,降低库存成本。 聚类与分类:零部件运营状 态细分,飞机维护保障状态细分等。 时间序列分析图和关联规则分析图 模型评估及发布: 模型评估及发布:结合飞机业务知识及商业知识,使用 SPSS 企业级预测平台 PES 进行模 型评估及发布。 15 评估模型: 评估模型:使用累积图或准确性;多个模型使用竞争方式评估;自 动报表发布 结果部署 实施效果及结果反馈: 实施效果及结果反馈:通过 SPSS 预测性分析软件和解 决方案,Sikorsky 飞机预先性地保 障了客户飞机的安全,降低了零部件的损 耗,合理地控制了成本,提高了飞机的可利用性, 提高了客户的满意度和忠诚 度,达到了可观的社会效益和经济效益。 马克威分析系统(单机版 V5.0) 综述: 一、 综述:上海天律信息技术有限公司产品品牌,旗下产品包括马克 威分析系统单机版、 网络版,马克威决策支持平台。 马克威分析系统单机版 V5.0 是一套集分析、 挖掘、预测、决策支持及展现于一体的知识发 现工具,通过构建工作流方式对 海量数据进行分析和挖掘,建立概念模型,从海量信息和数 据中寻找规律和知 识,并通过新颖、独特的展现方式为决策者提供科学有效的数据参考。它 适用 于企业、政府、科研教育、军队等单位和机构。马克威分析系统是中国信息化 过程中不 可缺少的工具。马克威分析系统 5.0(单机版)是马克威分析系统系 列产品中全新的一代企 业级统计分析和数据挖掘产品, 也是全球第一套准三 维操作环境的统计分析和数据挖掘软件 产品。它融合了先进的软件开发技术和 强大的算法库,能使用户更为轻松、高效、准确地对 16 数据进行处理和分析。 二、 特点: 特点
分享到:
收藏