logo资料库

65页PPT埃森哲大数据分析培训课件,概述 框架 方法 工具.pdf

第1页 / 共65页
第2页 / 共65页
第3页 / 共65页
第4页 / 共65页
第5页 / 共65页
第6页 / 共65页
第7页 / 共65页
第8页 / 共65页
资料共65页,剩余部分请下载后查看
大数据分析--埃森哲 2015-7
目录 概述 数据分析框架 数据分析方法 数据理解&数据准备 分类与回归 聚类分析 关联分析 时序模型 结构优化 数据分析支撑工具 Copyright © 2014 Accenture All rights reserved. 2
数据分析即从数据、信息到知识的过程,数据分析需要数 学理论、行业经验以及计算机工具三者结合 • 工具支撑 各种厂商开发了数据分析的工具、模块,将分析模型 封装,使不了解技术的人也能够快捷的实现数学 建模,快速响应分析需求。 • 数学&统计学知识 数据分析的基础,将整理、描述、 预测数据的手段、过程抽象为 数学模型的理论知识 • 机器学习 不需要人过多干预,通 过计算机自动学习,发 现数据规律,但结论不 易控制。 • 数据挖掘 数据挖掘是挖掘数据背后隐 藏的知识的重要手段 • 分析误区 不了解分析模型的数学原理,会导致 错误的使用模型,而得出错误的分析 结论,影响业务决策,因此在选用分 析模型时,要深入了解该模型的原理 和使用限制 机器 学习 数据 挖掘 传统 分析 分析 误区 行业经验 • 传统分析 在数据量较少时,传统的 数据分析已能够发现数据 中包含的知识,包括结构 分析、杜邦分析等模型, 方法成熟,应用广泛,本 文不展开介绍 • 行业经验 行业经验可在数据分析前确定分析需 求,分析中检验方法是否合理,以及 分析后指导应用,但行业特征不同, 其应用也不同,因此本文不展开介绍 Copyright © 2014 Accenture All rights reserved. 3
随着计算机技术发展和数据分析理论的更新,当前的数据 分析逐步成为机器语言、统计知识两个学科的交集(备 选) • 数据分析工具 各种厂商开发了数据分析 的工具、模块,将分 析模型封装,使不了 解技术的人也能够快 捷的实现数学建模, 快速响应分析需求。 • 信息处理 信息处理基于查询,可以发现有用 的信息。但是这种查询的回答反映 的是直接存放在数据库中的信息。 它们不反映复杂的模式,或隐藏在 数据库中的规律。 数据分析 工具 数据 挖掘 信息处理 传统分析 业务数据 • 传统分析 在数据量较少时,传统的 数据分析已能够发现数据 中包含的知识,包括结构 分析、杜邦分析等模型, 方法成熟,应用广泛,本 文不展开介绍 • 数据挖掘 就是充分利用了统计学和人工智能 技术的应用程序,并把这些高深复 杂的技术封装起来,使人们不用自 己掌握这些技术也能完成同样的功 能,并且更专注于自己所要解决的 问题。 Copyright © 2014 Accenture All rights reserved. 4
随着计算机科学的进步,数据挖掘、商务智能、大数据等 概念的出现,数据分析的手段和方法更加丰富 常规分析 数据挖掘 商务智能 大数据技术 数据可视化 •揭示数据之间的静 态关系 •分析过程滞后 •对数据质量要求高 结构分析 分组分析 预警分析 杜邦分析 …… 数据 分析 •从多种类型的数据 中,快速获取知识 的能力 •数据挖掘技术的衍 生 •大数据时代,展示 数据可以更好辅助 理解数据、演绎数 据 •统计学和计算机技 术等多学科的结合 •揭示数据之间隐藏 的关系 •将数据分析的范围 从“已知”扩展到 “未知”,从“过去” 推向“将来” •一系列以事实为支 持,辅助商业决策的 技术和方法,曾用名 包括专家系统、智能 决策等 •一般由数据仓库、 联机分析处理、数据 挖掘、数据备份和恢 复等部分组成 •对数据分析的体系 化管理,数据分析的 主体依然是数据挖掘 • 本文在描述数据分析的流程后,重点介绍通用的数据分析方法和主流的应用工具、 软件。 • 随着数据量的不断扩大,数据分析理论正处于飞速发展期,因此本文的方法侧重于 基础原理介绍。 Copyright © 2014 Accenture All rights reserved. 5
目录 概述 数据分析框架 数据分析方法 数据理解&数据准备 分类与回归 聚类分析 关联分析 时序模型 结构优化 数据分析支撑工具 Copyright © 2014 Accenture All rights reserved. 6
数据分析标准流程 CRISP-DM为90年代由SIG组织(当时)提出,已被业界广泛认可的数据分析流程。 1.业务理解(business understanding) 确定目标、明确分析需求 2.数据理解(data understanding) 收集原始数据、描述数据、探索数据、检验数据质量 3.数据准备(data preparation) 选择数据、清洗数据、构造数据、整合数据、格式化 数据 4.建立模型(modeling) 选择建模技术、参数调优、生成测试计划、构建模型 5.评估模型(evaluation) 对模型进行较为全面的评价,评价结果、重审过程 6.部署(deployment) 分析结果应用 Copyright © 2014 Accenture All rights reserved. 7
数据分析框架 业务理解 数据理解 数据准备 建立模型 模型评估 应用 理解业务背景, 评估分析需求 数据收集 数据清洗 数据探索 数据转换 选择方法、工 具,建立模型 建模过程评估 模型结果评估 分析结果应用 分析模型改进 • 数据收集: 抽取的数据必须能 够正确反映业务需 求,否则分析结论 会对业务将造成误 导。 • 数据清洗: 原始数据中存在数 据缺失和坏数据, 如果不处理会导致 模型失效,因此对 数据通过过滤“去 噪”从而提取出有 效数据 • 理解业务背景: 数据分析的本质 是服务于业务需 求,如果没有业 务理解,缺乏业 务指导,会导致 分析无法落地。 • 评估业务需求: 判断分析需求是 否可以转换为数 据分析项目,某 些需求是不能有 效转换为数据分 析项目的,比如 不符合商业逻辑、 数据不足、数据 质量极差等。 • 探索数据: 运用统计方法对数 据进行探索,发现 数据内部规律。 • 数据转换: 为了达到模型的输 入数据要求,需要 对数据进行转换, 包括生成衍生变量、 一致化、标准化等。 • 建立模型: 综合考虑业务需求 精度、数据情况、 花费成本等因素, 选择最合适的模型。 在实践中对于一个 分析目的,往往运 用多个模型,然后 通过后续的模型评 估,进行优化、调 整,以寻求最合适 的模型。 • 建模过程评估: 对模型的精度、 准确性、效率和 通用性进行评 估。, • 模型结果评估: 评估是否有遗漏 的业务,模型结 果是否回答了当 初的业务问题, 需要结合业务专 家进行评估。 • 结果应用: 将模型应用于 业务实践,才 能实现数据分 析的真正价值: 产生商业价值 和解决业务问 题。 • 模型改进: 对模型应用效 果的及时跟踪 和反馈,以便 后期的模型调 整和优化。 Copyright © 2014 Accenture All rights reserved. 8
分享到:
收藏