logo资料库

IBM分析大数据平台架构.pdf

第1页 / 共35页
第2页 / 共35页
第3页 / 共35页
第4页 / 共35页
第5页 / 共35页
第6页 / 共35页
第7页 / 共35页
第8页 / 共35页
资料共35页,剩余部分请下载后查看
INTELLIGENT BUSINESS STRATEGIES 设计用于分析大数据平台的架构 作者:Mike Ferguson Intelligent Business Strategies 2012 年 10 月 适 用 对 象 : 书 皮 白
设计用于分析的大数据平台的架构 目录 简介 ................................................................ 4 分析新数据源的业务需求 .............................................. 4 工作负载复杂性的增加 ................................................ 5 数据复杂性的增加 .................................................... 5 各种数据类型 ........................................................ 5 数据量 .............................................................. 5 数据生成的速度 ...................................................... 5 分析复杂性的增加 .................................................... 6 什么是大数据? ...................................................... 7 大数据的类型 ........................................................ 7 为何需要分析大数据? ................................................ 8 大数据分析应用 ...................................................... 8 大数据分析工作负载 ................................................. 10 分析动态数据以制定运营决策 ......................................... 10 非模式化、多结构化数据的探索式分析 ................................. 11 结构化数据的复杂分析 ............................................... 12 存档数据的存储、预处理和查询 ....................................... 13 加速结构化数据和非模式化数据的 ETL 处理 ............................ 13 端到端大数据分析的技术选项 ......................................... 14 用于动态大数据的事件流处理软件 ..................................... 14 静止大数据分析的存储选项 ........................................... 14 分析 RDBMS 设备 .................................................... 15 Hadoop 解决方案 .................................................... 15 NoSQL DBMSs ........................................................ 16 哪种存储选项最为合理? ............................................. 16 静止大数据的可伸缩数据管理选项 ..................................... 17 大数据分析选项 ..................................................... 18 将大数据集成到您的传统 DW/BI 环境中 ................................ 20 新型企业分析生态系统 ............................................... 20 接合分析处理 - 工作流的力量 ........................................ 21 新型分析生态系统的技术要求 ......................................... 22 入门:企业的大数据分析战略 ......................................... 24 业务协调 ........................................................... 24 工作负载与分析平台的协调 ........................................... 24 技能集 ............................................................. 24 为数据科学和探索搭建环境 ........................................... 24 定义分析模式和工作流 ............................................... 25 通过集成技术过渡到大数据企业 ....................................... 25 版权所有 © Intelligent Business Strategies Limited,2012,保留所有权利。 2
设计用于分析的大数据平台的架构 供应商示例:IBM 的端到端大数据解决方案 ............................. 26 IBM InfoSphere Streams –– 分析动态大数据 ......................... 27 支持分析静态数据的 IBM 设备 ........................................ 28 IBM InfoSphere BigInsights ......................................... 28 IBM PureData System for Analytics(采用 Netezza 技术) ............. 29 IBM PureData System for Operational Analytics ...................... 29 IBM大数据平台加速器 ................................................ 30 IBM DB2 分析加速器 (IDAA) .......................................... 30 面向大数据企业的 IBM 信息管理 ...................................... 30 面向大数据企业的 IBM 分析工具 ...................................... 31 IBM BigSheetsuda ................................................... 31 IBM Cognos 10 ...................................................... 31 IBM Cognos Consumer Insight (CCI) .................................. 32 IBM SPSS ........................................................... 32 IBM Vivisimo ....................................................... 33 这些组件如何融合在一起以实现端到端的业务洞察 ....................... 33 结束语 ............................................................. 34 版权所有 © Intelligent Business Strategies Limited,2012,保留所有权利。 3
设计用于分析的大数据平台的架构 简介 多年来,组织始终通 过构建数据仓库来分 析业务活动 BI 市场日趋成熟,但 BI 仍然处于 IT 投资 的前沿 多年来,企业始终通过构建数据仓库来分析业务活动,获得供决策制定者采取 业务绩效提升措施的洞察。这些传统分析系统通常基于经典模式,即从多个运 营系统中捕获数据,并对这些数据加以清理、转换和集成,随后再将其加载到 数据仓库中。通常,组织将建立多年的业务活动历史,以便运用商业智能 (BI) 工具来分析、对比和报告长期业务绩效。除此之外,组织通常还会从数据仓库 中提取这些数据的子集,并将其置入已为更详细的多维分析而优化的数据市场 中。 如今,数据仓库和 BI 出现已有二十余年。这段时间以来,许多企业已经在其不 同的业务部分中构建了众多数据仓库和数据市场。尽管 BI 市场日趋成熟,但 BI 仍然处于 IT 投资的前沿。这种要求在很大程度上可以归因于人们创建的数据越 来越多。但是,企业也在发生变化,已经从凭直觉运营转变为根据详尽的事实 信息运营。在这个动荡的市场中,随着分析关系数据库技术的发展以及移动和 协作式 BI 的兴起,软件技术也在不断改进。 分析新数据源的业务需求 更为复杂的新数据已 经出现,而且生成的 速度达到了前所未有 的程度 尽管传统环境不断发展,但如今出现了许多更为复杂的新数据类型,企业需要 分析这些数据类型,以便充实其已知信息。此外,这些新数据的生成速度远远 超过了以往的纪录。 客户和潜在客户正在社交网络和评论网站中创建大量的新数据。此外,在线新 闻项目、气象数据、竞争对手网站内容,甚至是数据市场如今都已经成为可供 企业使用的候选数据源。 社交网络数据、网络 日志、存档数据和传 感器数据都属于人们 在分析中关注的新数 据源 在企业内部,随着客户转变为以在线渠道作为开展商业交易及与企业互动的首 选方法,网络日志也在不断增加。分析所用的存档数据再次增多,为监测和优 化业务运营而部署的传感器网络和机器数量也越来越多。结果就生成了大量新 数据源、快速增加的数据量和迅速增加的新数据流,需要分析所有这些新数据 。 版权所有 © Intelligent Business Strategies Limited,2012,保留所有权利。 4
设计用于分析的大数据平台的架构 工作负载复杂性的增加 数据和分析工作负载 的复杂性正在增加 观察所有这些新数据源,可以明确的是,无论是就数据本身的特征而言,还是 就企业希望执行的分析类型而言,复杂性都在增加。 数据复杂性的增加 就数据而言,复杂性主要是通过三种途径增加的: • 企业所捕获的各种数据类型 • 企业所捕获的数据量 • 数据生成的速度或速率 • 数据的精确性或可信性 各种数据类型 除了“正常”捕获主数据和事务数据之外,企业现在还会捕获新的数据类型。 这其中包括: • 半结构化数据,例如,电子邮件、电子表格、HTML、XML • 非结构化数据,例如,文档集合(文本)、社交互动、图片、视频和声 音 • 传感器数据和机器生成数据 这一系列更为复杂的全新数据类型通常也被称为多结构化数据。多结构化数据 的一个主要问题是这些数据往往是非模式化的,因此必须加以“探索”,才能 从中得出具有商业价值的结构化数据。因此,通常必须在传统分析环境的上游 对多结构化数据执行调查分析,以便识别可能充分实现有数据仓库内已存储内 容的数据。此外,还可能需要对此数据(比如石油与天然气中的地震数据)执 行独立高级分析研究。 数据量 除了新数据类型造成的复杂性之外,企业收集数据的速度也在加快,这造成了 数据量的进一步增加。示例包括文档和电子邮件、web 内容、电信业呼叫数据 记录 (CDR)、网络日志数据和机器生成数据的集合。这些数据源可能要占用数 百 TB 乃至数 PB 的空间。 数据生成的速度 数据的生成速度也在快速增加。金融市场数据就是一个很好的示例,这些数据 以极快的速度生成和发出,必须立即分析这些数据才能及时响应市场变化。其 他示例包含传感器数据和机器生成数据,此时的需求与之前相同,摄像头还可 能需要视频和图像分析。 正在捕获新的数据类 型 其中大部分数据都是 非模式化的 必须首先通过调查分 析来确定其结构,之 后才能将其引入数据 仓库 某些新数据源的数据 量也非常庞大 数据创建的速度也在 不断加快 版权所有 © Intelligent Business Strategies Limited,2012,保留所有权利。 5
设计用于分析的大数据平台的架构 分析复杂性的增加 分析复杂性也在增加 在分析复杂性方面,现在需要利用新型算法和多种类型的分析来生成解决业务 问题所需的必要洞察。此外,需要对具有不同种类、数量和速度特征的数据执 行这些分析。零售市场就是一个很好的示例,在这种市场中,人们往往使用移 动设备保持在线,因此需要改善在线渠道的市场活动准确性和及时性。这意味 着需要更详细的客户洞察。在这种情况下,可能需要: 可能需要利用多种类 型的分析来解决业务 问题 • 对客户人口统计数据和客户购买交易活动(结构化数据)执行历史分析 和报告,以确定客户细分市场和购买行为 • 市场购物篮分析,确定可共同销售的产品,以识别各客户的交叉销售机 遇 • 点击流分析,以理解客户在浏览网站内容时的在线行为和产品查看模 式,从而实时生成准确的追加销售服务 • 分 析 用 户 生 成 的 社 交 网 络 数 据 , 比 如 个 人 资 料 ( 如 Facebook 、 LinkedIn)、产品评论、评分、喜好、反感、评论和客户服务交互等 • 实时分析客户手机位置服务 (GPS) 数据,以检测可能位于店铺附近的客 户,并为其提供针对性优惠,吸引客户进入店铺 在许多情况下,确定 所需的洞察现在已经 成为一个涉及多种分 析类型的流程 重点在于,在许多情况下,确定解决业务问题所需的洞察现在已经成为一个涉 及多种不同数据源分析的流程,而且数据和分析具有不同的复杂性。此外,在 任何分析流程中都可能需要分析结构化和非结构化数据,以便生成所需的洞察 。必须利用数据集成来合并多模式数据,以改进可靠的洞察。 在一个分析流程中, 并非所有分析始终都 可以在单独一种平台 上完成 此外,考虑到某些数据源可能是非模式化的,因此分析流程中的步骤无法全部 在单一分析平台上完成,而是需要利用多种基本技术来解决业务问题。 尽管存在这些复杂性,但仍然亟需分析许多业务领域中不断增加的此类新数据 类型以及现有的传统数据。一个常见的示例是分析社交网络数据,以便理解客 户舆情、社交图和具有影响力的人员,以便补充现有客户资料或客户细分数据 。 版权所有 © Intelligent Business Strategies Limited,2012,保留所有权利。 6
设计用于分析的大数据平台的架构 什么是大数据? 分析工作负载的范围 如今极为广泛,以至 于无法通过单一企业 数据仓库加以处理 如今需要全新、扩 展的分析环境 大数据是一个与传统环 境无法轻易支持的新型 工作负载相关的术语 因此,大数据不仅仅 与数据量有关 大数据可能与结构化 和多结构化数据相关 数据仓库是扩展分析 环境的一个组成部分 分析需求和数据特征 将表明需要部署的技 术 大数据的类型 Web 日志和社交 网络交互数据 海量事务数据 文本 传感器数据 新数据源的兴起和实时分析包括实时数据流和大量非结构化内容在内的一切内 容让许多企业认识到,他们目前已经进入了一个全新的时代:分析工作负载的 范围极为广泛,以至于无法通过单一企业数据仓库加以处理。而这还不是全部 。尽管数据仓库是分析环境中非常重要的一部分,但如今的业务需求表明,需 要一种更为复杂的全新分析环境,以支持传统环境无法轻易支持的一系列分析 工作负载。 除了数据仓库之外,这种新型环境还包含多种底层技术平台,每种平台均为特 定的分析工作负载而优化。此外,它应该能够独立地为特定工作负载利用这些 平台,也能结合利用这些平台来解决业务问题。如今的目标在于应对全范围的 分析工作负载。这包括传统工作负载和新型“大数据”分析工作负载。 因此,大数据是一个与解决过去因技术限制和/或过高的成本而无法解决的业务 问题所需的新型工作负载和基本技术相关的术语。 因此,大数据不仅仅与数据量有关。它可能与数据量中等但数据种类(数据和 分析复杂性)极高的数据相关。大数据分析的主旨在于:与数据量、数据速度 和数据种类(可能包含复杂的分析和复杂的数据类型)的某种组合相关的分析 工作负载。因此,大数据可能与结构化和多结构化数据相关,而不仅限于后者 。正因如此,大数据分析可能包含传统数据仓库环境,因为某些分析工作负载 可能需要同时使用传统平台和针对工作负载优化的平台来解决业务问题。新型 企业分析环境包含传统的数据仓库和其他最适合某种分析工作负载的分析平台 。大数据不能取代数据仓库。实际上,数据仓库是扩展分析环境的一个组成部 分。 分析需求和数据特征将表明大数据环境内需要部署的技术。因此,可以在多种 技 术 平 台 上 实 施 大 数 据 解 决 方 案 , 包 括 流 式 处 理 引 擎 、 关 系 DBMS 、 分 析 DBMS(例如,大规模并行数据仓库设备)或非关系数据管理平台(比如, 商业化的 Hadoop 平台或者专业化的 NoSQL 数据存储 — 例如图形数据库)。 更重要的是,它可能会结合所有这一切,以支持业务需求。关系 DBMS 技术当 然并非不适用于大数据分析。 通常与大数据分析项目相关的数据类型包括 Web 数据、特定于行业的事务数据 、机器生成/传感器数据和文本。 Web 数据包括 Web 日志数据、电子商务日志和社交网络交互数据,例如 Twitter 流。 特定于行业的事务数据示例包括电信业的呼叫数据记录 (CDR) 和地理位置数据 、零售交易数据和制药业的药品实验数据。 机器生成/传感器数据是增长最快的领域之一。如今,传感器监控着生活的方方 面面,包括移动、温度、光线、振动、位置(例如,智能手机中的传感器)、 气流、液体流动和压力。此外,我们也注意到有越来越多的产品采用了生成数 版权所有 © Intelligent Business Strategies Limited,2012,保留所有权利。 7
设计用于分析的大数据平台的架构 据的电子元件,所有这些产品都能连接到互联网,将数据传回给收集者和指挥 中心。“物联网”的时代已经到来。 在非结构化内容的世界中,文本是最普遍的分析目标。如今,许多企业已经开 始认识到,文本中蕴藏着重要价值,无论是存档文档、外部内容源,还是客户 交互数据中的文本都是如此。过去的技术局限性妨碍或限制了此类数据的分析 。但是,随着障碍的消除,文本分析逐渐成为高优先级的分析项目,舆情分析 就是一个很好的示例。此外,企业如今通过收集数据来避免未来的债务。例 如,石油与天然气企业要收集跨度为 20 年至 30 年的数据,以捕获运营前、运 营中和运营后的环境数据。 企业如今通过收集数 据来避免未来的债务 为何需要分析大数据? 多结构化数据的分析 可能会生成额外的洞 察,充实企业已经了 解的信息 技能的短缺和市场的 混乱妨碍了大数据技 术的采用 更多细节能提升业务 洞察的准确性和响应 速度 企业需要分析大数据的原因多种多样。如今的技术发展已使企业能够分析完整 的数据集,而非数据子集。例如,企业可以分析每一次交互,而非每一笔交易 。因此,多结构化数据的分析可能会生成额外的洞察,用以充实企业已经了解 的信息,进而发现过去未知的其他机遇。这意味着可能会得到更为准确的业务 洞察,帮助提升业务绩效。对于许多组织来说,即便通过分析更多数据将关键 绩效指标改进了 0.5%、1%、2% 或者 3%,成果也是极为可观的。此外,数据 流分析的引入也能提升响应速度并降低风险。 但是,仍然有一些因素妨碍着大数据的分析。其中的两个原因如下: 1) 具有相应技能的人才短缺 2) 对于应该使用哪种技术平台的认识混淆不清 互联网充斥着有关关系 DBMS、Hadoop 与 NoSQL DBMS 对比的传 言,很多人并不确定应在何时为哪类分析工作负载选用某种技术而非其他 技术。 大数据分析应用 与结构化和多结构化数据相关的分析应用层出不穷。下表给出了大数据分析的 部分行业用例。 行业 金融服务 保险 医疗保健 制造业 用例 改进风险决策 “了解您的客户” - 360 度全方位的客户洞察 欺诈检测 程序化交易 驾驶员行为分析(智能黑盒) 经纪人文档分析,用以深化对于承保风险的洞察, 从而改进风险管理 医疗记录分析,以便了解患者再次入院的原因 疾病监测基因组学 “智能”产品使用和运行状况监控 通过分析服务记录来改善客户服务 大数据分析的用例 极为广泛 版权所有 © Intelligent Business Strategies Limited,2012,保留所有权利。 8
分享到:
收藏