大数据分析--埃森哲
2015-7
目录
概述
数据分析框架
数据分析方法
数据理解&数据准备
分类与回归
聚类分析
关联分析
时序模型
结构优化
数据分析支撑工具
Copyright © 2014 Accenture All rights reserved.
2
数据分析即从数据、信息到知识的过程,数据分析需要数
学理论、行业经验以及计算机工具三者结合
• 工具支撑
各种厂商开发了数据分析的工具、模块,将分析模型
封装,使不了解技术的人也能够快捷的实现数学
建模,快速响应分析需求。
• 数学&统计学知识
数据分析的基础,将整理、描述、
预测数据的手段、过程抽象为
数学模型的理论知识
• 机器学习
不需要人过多干预,通
过计算机自动学习,发
现数据规律,但结论不
易控制。
• 数据挖掘
数据挖掘是挖掘数据背后隐
藏的知识的重要手段
• 分析误区
不了解分析模型的数学原理,会导致
错误的使用模型,而得出错误的分析
结论,影响业务决策,因此在选用分
析模型时,要深入了解该模型的原理
和使用限制
机器
学习
数据
挖掘
传统
分析
分析
误区
行业经验
• 传统分析
在数据量较少时,传统的
数据分析已能够发现数据
中包含的知识,包括结构
分析、杜邦分析等模型,
方法成熟,应用广泛,本
文不展开介绍
• 行业经验
行业经验可在数据分析前确定分析需
求,分析中检验方法是否合理,以及
分析后指导应用,但行业特征不同,
其应用也不同,因此本文不展开介绍
Copyright © 2014 Accenture All rights reserved.
3
随着计算机技术发展和数据分析理论的更新,当前的数据
分析逐步成为机器语言、统计知识两个学科的交集(备
选)
• 数据分析工具
各种厂商开发了数据分析
的工具、模块,将分
析模型封装,使不了
解技术的人也能够快
捷的实现数学建模,
快速响应分析需求。
• 信息处理
信息处理基于查询,可以发现有用
的信息。但是这种查询的回答反映
的是直接存放在数据库中的信息。
它们不反映复杂的模式,或隐藏在
数据库中的规律。
数据分析
工具
数据
挖掘
信息处理
传统分析
业务数据
• 传统分析
在数据量较少时,传统的
数据分析已能够发现数据
中包含的知识,包括结构
分析、杜邦分析等模型,
方法成熟,应用广泛,本
文不展开介绍
• 数据挖掘
就是充分利用了统计学和人工智能
技术的应用程序,并把这些高深复
杂的技术封装起来,使人们不用自
己掌握这些技术也能完成同样的功
能,并且更专注于自己所要解决的
问题。
Copyright © 2014 Accenture All rights reserved.
4
随着计算机科学的进步,数据挖掘、商务智能、大数据等
概念的出现,数据分析的手段和方法更加丰富
常规分析
数据挖掘
商务智能
大数据技术
数据可视化
•揭示数据之间的静
态关系
•分析过程滞后
•对数据质量要求高
结构分析
分组分析
预警分析
杜邦分析
……
数据
分析
•从多种类型的数据
中,快速获取知识
的能力
•数据挖掘技术的衍
生
•大数据时代,展示
数据可以更好辅助
理解数据、演绎数
据
•统计学和计算机技
术等多学科的结合
•揭示数据之间隐藏
的关系
•将数据分析的范围
从“已知”扩展到
“未知”,从“过去”
推向“将来”
•一系列以事实为支
持,辅助商业决策的
技术和方法,曾用名
包括专家系统、智能
决策等
•一般由数据仓库、
联机分析处理、数据
挖掘、数据备份和恢
复等部分组成
•对数据分析的体系
化管理,数据分析的
主体依然是数据挖掘
• 本文在描述数据分析的流程后,重点介绍通用的数据分析方法和主流的应用工具、
软件。
• 随着数据量的不断扩大,数据分析理论正处于飞速发展期,因此本文的方法侧重于
基础原理介绍。
Copyright © 2014 Accenture All rights reserved.
5
目录
概述
数据分析框架
数据分析方法
数据理解&数据准备
分类与回归
聚类分析
关联分析
时序模型
结构优化
数据分析支撑工具
Copyright © 2014 Accenture All rights reserved.
6
数据分析标准流程
CRISP-DM为90年代由SIG组织(当时)提出,已被业界广泛认可的数据分析流程。
1.业务理解(business understanding)
确定目标、明确分析需求
2.数据理解(data understanding)
收集原始数据、描述数据、探索数据、检验数据质量
3.数据准备(data preparation)
选择数据、清洗数据、构造数据、整合数据、格式化
数据
4.建立模型(modeling)
选择建模技术、参数调优、生成测试计划、构建模型
5.评估模型(evaluation)
对模型进行较为全面的评价,评价结果、重审过程
6.部署(deployment)
分析结果应用
Copyright © 2014 Accenture All rights reserved.
7
数据分析框架
业务理解
数据理解
数据准备
建立模型
模型评估
应用
理解业务背景,
评估分析需求
数据收集
数据清洗
数据探索
数据转换
选择方法、工
具,建立模型
建模过程评估
模型结果评估
分析结果应用
分析模型改进
• 数据收集:
抽取的数据必须能
够正确反映业务需
求,否则分析结论
会对业务将造成误
导。
• 数据清洗:
原始数据中存在数
据缺失和坏数据,
如果不处理会导致
模型失效,因此对
数据通过过滤“去
噪”从而提取出有
效数据
• 理解业务背景:
数据分析的本质
是服务于业务需
求,如果没有业
务理解,缺乏业
务指导,会导致
分析无法落地。
• 评估业务需求:
判断分析需求是
否可以转换为数
据分析项目,某
些需求是不能有
效转换为数据分
析项目的,比如
不符合商业逻辑、
数据不足、数据
质量极差等。
• 探索数据:
运用统计方法对数
据进行探索,发现
数据内部规律。
• 数据转换:
为了达到模型的输
入数据要求,需要
对数据进行转换,
包括生成衍生变量、
一致化、标准化等。
• 建立模型:
综合考虑业务需求
精度、数据情况、
花费成本等因素,
选择最合适的模型。
在实践中对于一个
分析目的,往往运
用多个模型,然后
通过后续的模型评
估,进行优化、调
整,以寻求最合适
的模型。
• 建模过程评估:
对模型的精度、
准确性、效率和
通用性进行评
估。,
• 模型结果评估:
评估是否有遗漏
的业务,模型结
果是否回答了当
初的业务问题,
需要结合业务专
家进行评估。
• 结果应用:
将模型应用于
业务实践,才
能实现数据分
析的真正价值:
产生商业价值
和解决业务问
题。
• 模型改进:
对模型应用效
果的及时跟踪
和反馈,以便
后期的模型调
整和优化。
Copyright © 2014 Accenture All rights reserved.
8