logo资料库

大数据系统综述_李学龙.pdf

第1页 / 共44页
第2页 / 共44页
第3页 / 共44页
第4页 / 共44页
第5页 / 共44页
第6页 / 共44页
第7页 / 共44页
第8页 / 共44页
资料共44页,剩余部分请下载后查看
中国科学 : 信息科学 2015 年 第 45 卷 第 1 期 : 1{44 www.scichina.com info.scichina.com 评 述 大数据系统综述 李学龙‹*, 龚海刚› ‹ 中国科学院西安光学精密机械研究所光学影像分析与学习中心 (OPTIMAL), 西安 710119 › 电子科技大学计算机科学与工程学院, 成都 611731 * 通信作者. E-mail: xuelong li@opt.ac.cn 收稿日期: 2014–09–30; 接受日期: 2014–11–21 国家自然科学基金 (批准号: 61125106) 资助项目 摘要 随着科学、技术和工程的迅猛发展, 近 20 年来, 许多领域 (如光学观测、光学监控、健康医 护、传感器、用户数据、互联网和金融公司以及供应链系统) 都产生了海量的数据 (更恰当的描述或 许是 \无限" 的数据, 例如, 在光学观测和监控等应用中, 数据都是源源不断而来的, 形成了 \数据灾 难"), 大数据的概念也随之再次引起重视. 与传统的数据相比, 除了大容量等表象特点, 大数据还具 有其他独特的特点, 例如大数据通常是无结构的, 并且需要得到实时分析, 因此大数据的发展需要全 新的体系架构, 用于处理大规模数据的获取、传输、存储和分析. 本文对大数据分析平台进行了尽可 能详尽的文献调研, 首先介绍了大数据的基本定义和大数据面临的一些挑战; 然后提出了大数据系 统框架, 将大数据系统分解为数据生成、数据获取、数据存储和数据分析等 4 个模块, 这 4 个模块也 构成了大数据价值链; 随后讨论了学术界和工业界中和大数据相关的方法和机制; 最后介绍了典型 的大数据系统基准和大数据的一些科学问题. 本文意图为非专业读者提供大数据的全景知识, 也为 高级读者定制自己的大数据解决方案提供辅助思想, 希望能够对大数据相关的科技和工程人员起到 一些参考作用. 关键词 大数据 数据获取 数据存储 数据处理 数据分析 1 引言 近年来, “大数据” 已广为人知, 并被认为是信息时代的新 “石油”, 这主要基于两点共识. 首先, 在过去 20 年间, 数据产生速度越来越快. 据国际数据公司 IDC 报道 [1], 2011 年产生和复制的数据 量超过 1.8 Z 字节, 是过去 5 年数据增长的 9 倍, 并将以每两年翻倍的速度增长. 其次, 大数据中隐 藏着巨大的机会和价值, 将给许多领域带来变革性的发展. 因此, 大数据研究领域吸引了产业界、政 府和学术界的广泛关注. 例如, 产业界报告 [2] 和公共媒体 (Economists [3]1), New York Times [4], 美 国国家公共广播电台 [5, 6]) 中充斥了大数据的相关信息; 政府部门设立重大项目加速大数据的发展 [7]; Nature2)和Science3) 等期刊也发表了大数据挑战相关的论点. 毫无疑问, 大数据时代已经到来. 1) Economist T. Drowning in numbers – digital data will flood the planet and help us understand it better. http:// www.economist.com/blogs/dailychart/2011/11/bigdata-0/. 2) Big Data. 2008. http://www.nature.com/news/specials/bigdata/index.html. 3) Special Online Collection: Dealing with Big Data. 2011. http://www.sciencemag.org/site/special/data/. 引用格式: 李学龙, 龚海刚. 大数据系统综述. 中国科学: 信息科学, 2015, 45: 1{44, doi: 10.1360/N112014-00290
李学龙等: 大数据系统综述 大数据的数据集大小以难以想象的速度增长, 给数据处理带来了极大的挑战. 首先, 信息技术的 发展使得数据的生成和消费变得更容易. 例如, 每分钟有 72 小时长度的视频被上传到 Youtube 服务 器4). 大数据的这种大容量特性使得数据难以可伸缩地从分布式的地点收集并集成. 第二, 数据采集 后, 如何以最小的硬件和软件代价存储和管理这些海量异构数据是非常具有挑战性的问题. 第三, 由 于大数据的异构性、规模性、实时性、复杂性和隐私性等特点, 大数据分析必须在不同层次 (建模、可 视化、预测和优化) 高效地挖掘数据以提高决策效率. 这些挑战迫切地需要对整个数据管理系统的各 个层次 (从体系架构到具体机制) 进行变革. 但是如果能有效地管理大数据, 就能够给许多领域, 如科 学和环境建模、健康医护和能源保护带来巨大的变革. 国际策略咨询公司 McKinsey 的研究报告 [2] 表 明, 全球个人位置信息的潜在价值达到 7000 亿, 并且能降低产品开发和集成成本的一半以上. 然而, 传统的数据管理和分析系统是基于关系型数据库管理系统 (RDBMS) 的. 这些系统在处理结 构化数据时性能突出, 但是对半结构化或无结构化数据的处理却无法提供有力的支持. 此外, RDBMS 可以通过增加昂贵的硬件向上扩展 (scale up), 但是无法通过并行增加硬件实现向外扩展 (scale out). 显然, 传统的 RDBMS 无法处理如今大数据的规模和异构性. 为了解决这些挑战, 学术界和产业界从 不同角度提出了大数据系统的解决方案. 而云计算平台可以作为大数据系统的基础设施层以满足特定 的基础设施需求, 例如成本效率、灵活性以及向上或向下扩展的能力. 分布式文件系统 [8] 和 NoSQL 数据库 [9] 适用于数据持久存储和模式自由 (scheme free) 的海量数 据管理. MapReduce [10] 编程框架在处理组聚合 (group-aggregation) 任务, 如网站排名方面, 获得了极 大的成功. Hadoop [11] 则集成了数据存储、数据处理、系统管理和其他模块, 提供了强大的系统级解 决方案, 成为大数据处理的主流. 基于这些革新性的技术和平台, 可以构建多样的大数据应用. 本文对大数据领域进行系统性的介绍, 为理解大数据平台、开发大数据应用以及从事大数据的研 究提供指导. 本文引入了大数据系统的通用框架, 该框架将大数据平台分为数据生成、数据获取、数 据存储和数据分析 4 个处理阶段, 并对每一个阶段的当前研究进展进行了调研, 提出了架构设计的工 程级观点, 对大数据的不同分析实例进行了探讨. 此外, 本文还比较了大数据系统的评价基准, 并归纳 了大数据存在的科学问题和研究方向. 2 大数据国内外现状 大数据的快速发展, 使之成为信息时代的一大新兴产业, 并引起了国内外政府、学术界和产业界 的高度关注. 2.1 国外研究现状 早在 2009 年, 联合国就启动了 “全球脉动计划”, 拟通过大数据推动落后地区的发展, 而 2012 年 1 月的世界经济论坛年会也把 “大数据, 大影响” 作为重要议题之一. 在美国, 2009 年至今, Data.gov (美国政府数据库) 全面开放了 40 万政府原始数据集, 大数据已成为美国国家创新战略、国家安全战 略以及国家信息网络安全战略的交叉领域和核心领域. 2012 年 3 月, 美国政府提出 “大数据研究和发 展倡议”, 发起全球开放政府数据运动, 并投资 2 亿美元促进大数据核心技术研究和应用, 涉及 NSF, DARPA 等 6 个政府部门和机构, 把大数据放在重要的战略位置. 英国政府也将大数据作为重点发展 的科技领域, 在发展 8 类高新技术的 6 亿英镑投资中, 大数据的注资占三成. 2014 年 7 月, 欧盟委员 4) Youtube Statistics. http://www.youtube.com/yt/press/statistics.html. 2
中国科学 : 信息科学 第 45 卷 第 1 期 会也呼吁各成员国积极发展大数据, 迎接 “大数据” 时代, 并将采取具体措施发展大数据业务. 例如建 立大数据领域的公私合作关系; 依托 “地平线 2020” 科研规划, 创建开放式数据孵化器; 成立多个超级 计算中心; 在成员国创建数据处理设施网络. 在学术界, 美国麻省理工大学 (MIT) 计算机科学与人工智能实验室 (CSAIL) 建立了大数据科学 技术中心 (ISTC). ISTC 主要致力于加速科学与医药发明、企业与行业计算, 并着重推动在新的数据 密集型应用领域的最终用户体验的设计创新. 大数据 ISTC 由 MIT 作为中心学校, 研究专家们来自 MIT、加州大学圣巴巴拉分校、波特兰州立大学、布朗大学、华盛顿大学和斯坦福大学等 6 所大学. 通 过明确和资助领域带头人、提供合作研究中心的方式, 目标是发掘共享、存储和操作大数据的解决方 案, 涉及 Intel, Microsoft, EMC 等多家国际产业巨头. 同时, 英国牛津大学成立了首个综合运用大数据 的医药卫生科研中心, 该中心的成立有望给英国医学研究和医疗服务带来革命性变化, 它将促进医疗 数据分析方面的新进展, 帮助科学家更好地理解人类疾病及其治疗方法. 该中心通过搜集、存储和分 析大量医疗信息, 确定新药物的研发方向, 减少药物开发成本, 同时为发现新的治疗手段提供线索. 而 以英国为首的欧洲核子中心 (CERN) 也在匈牙利科学院魏格纳物理学研究中心建设了一座超宽带数 据中心, 该中心将成为连接 CERN 且具有欧洲最大传输能力的数据处理中心. 在产业界, 国外许多著名企业和组织都将大数据作为主要业务, 例如 IBM, Microsoft, EMC, DELL, HP 等国际知名厂商都提出了各自的大数据解决方案或应用. IBM 宣布了收购 Star Analytics (星分析 公司) 软件产品组合的消息. 除了 Star Analytics, 在 IBM 最新的收购计划中, Splunk 和 NetApp 是最 热门的收购目标. 据不完全统计, 从 2005 年起, IBM 花费超过 160 亿美元收购了 35 家与大数据分析 相关的公司. 此外, IBM 还和全球千所高校达成协议, 就大数据的联合研究、教学、行业应用案例开发 等方面开展全面的合作. 无疑, 欧美等国家对大数据的探索和发展已走在世界前列, 各国政府已将大数据发展提升至战略 高度, 大力促进大数据产业的发展. 2.2 国内研究现状 我国政府、学术界和产业界也早已经开始高度重视大数据的研究和应用的工作, 并纷纷启动了相 应的研究计划. 挂一漏万, 鉴于我们的了解面所限, 本文仅能够简要介绍其中的一些. 在政府层面, 科技部 “十二五” 部署了关于物联网、云计算的相关专项. 2012 年, 中国科学院院长 白春礼院士呼吁中国应制定国家大数据战略. 同年 3 月, 科技部发布的《“十二五” 国家科技计划信息 技术领域 2013 年度备选项目征集指南》中的 “先进计算” 板块己明确提出 “面向大数据的先进存储结 构及关键技术”, 国家 “973 计划”、“863 计划”、国家自然科学基金等也分别设立了针对大数据的研究 计划和专项. 目前已立项 “973 计划” 项目 2 项, “973 计划” 青年项目 2 项, 国家自然科学基金重点项 目 2 项. 地方政府也对大数据战略高度重视, 2013 年上海市提出了《上海推进大数据研究与发展三年 行动计划》, 重庆市提出了《重庆市人民政府关于印发重庆市大数据行动计划的通知》, 2014 年广东省 成立大数据管理局负责研究拟订并组织实施大数据战略、规划和政策措施, 引导和推动大数据研究和 应用工作. 贵州、河南和承德等省市也都推出了各自的大数据发展规划. 在学术研究层面, 国内许多高等院校和研究所开始成立大数据的研究机构. 与此同时, 国内有关 大数据的学术组织和活动也纷纷成立和开展. 2012 年中国计算机学会和中国通信学会都成立了大数 据专家委员会, 教育部也在人民大学成立 “萨师煊大数据分析与管理国际研究中心”. 近年来开展了许 多学术活动, 主要包括: CCF 大数据学术会议、中国大数据技术创新与创业大赛、大数据分析与管理 国际研讨会、大数据科学与工程国际学术研讨会、中国大数据技术大会和中国国际大数据大会等. 3
李学龙等: 大数据系统综述 在产业层面, 国内不少知名企业或组织也成立了大数据产品团队和实验室, 力争在大数据产业竞 争中占据领先地位. 3 大数据基础 本节首先介绍了大数据的一些主流定义, 随后介绍大数据的发展历史, 并讨论两种大数据处理方 式: 流处理和批处理. 3.1 大数据定义 随着大数据的流行, 大数据的定义呈现多样化的趋势, 达成共识非常困难. 本质上, 大数据不仅意 味着数据的大容量, 还体现了一些区别于 “海量数据” 和 “非常大的数据” 的特点. 实际上, 不少文献 对大数据进行了定义, 其中三种定义较为重要. 属性定义 (Attributive definition): 国际数据中心 IDC 是研究大数据及其影响的先驱, 在 2011 年 的报告中定义了大数据 [1]: “大数据技术描述了一个技术和体系的新时代, 被设计于从大规模多样化的 数据中通过高速捕获、发现和分析技术提取数据的价值”. 这个定义刻画了大数据的 4 个显著特点, 即 容量 (volume)、多样性 (variety)、速度 (velocity) 和价值 (value), 而 “4Vs” 定义的使用也较为广泛. 类 似的定义也出现在 2001 年 IT 分析公司 META 集团 (现在已被 Gartner 并购) 分析师 Doug Laney 的 研究报告中 [2], 他注意到数据的增长是三维的, 即容量、多样性和速度的增长. 尽管 “3Vs” 定义没有完 整描述大数据, Gartner 和多数产业界巨头如 IBM [12] 和 Microsoft [13] 的研究者们仍继续使用 “3Vs” 模型描述大数据 [14]. 比较定义 (Comparative definition): 2011 年, McKinsey 公司的研究报告中 [2] 将大数据定义为 “超 过了典型数据库软件工具捕获、存储、管理和分析数据能力的数据集”. 这种定义是一种主观定义, 没 有描述与大数据相关的任何度量机制, 但是在定义中包含了一种演化的观点 (从时间和跨领域的角度), 说明了什么样的数据集才能被认为是大数据. 体系定义 (Architectural definition): 美国国家标准和技术研究院 NIST 则认为 [15]“大数据是指数 据的容量、数据的获取速度或者数据的表示限制了使用传统关系方法对数据的分析处理能力, 需要使 用水平扩展的机制以提高处理效率”. 此外, 大数据可进一步细分为大数据科学 (big data science) 和大 数据框架 (big data frameworks). 大数据科学是涵盖大数据获取、调节和评估技术的研究; 大数据框架 则是在计算单元集群间解决大数据问题的分布式处理和分析的软件库及算法. 一个或多个大数据框架 的实例化即为大数据基础设施. 此外, 还有不少产业界和学术界对大数据定义的讨论 [16]5). 然而对于大数据定义, 要达成共识非常困难. 一种逻辑上的选择是接受所有的大数据定义, 其中每 种定义反映了大数据的特定方面. 本文采取这种方式理解大数据科学和工程的共同问题和相关机制. 前面提到的大数据定义给出了一系列工具, 用于比较大数据和传统的数据分析, 比较结果如表 1 所示. 首先, 数据集的容量是区分大数据和传统数据的关键因素. 例如, Facebook 报道 2012 年每天有 27 亿 用户登录并发表评论 [17]. 其次, 大数据有三种形式: 结构化、半结构化和无结构化. 传统的数据通常 是结构化的, 易于标注和存储. 而现在 Facebook, Twitter, YouTube 以及其他用户产生的绝大多数数 据都是非结构化的. 第三, 大数据的速度意味着数据集的分析处理速率要匹配数据的产生速率. 对于 5) Grobelnik M. Big Data Tutorial. http://videolectures.net/eswc2012 grobelnik big data. 4
中国科学 : 信息科学 第 45 卷 第 1 期 表 1 大数据和传统数据比较 Table 1 Comparison between big data and traditional data Traditional data Big data Volume GB Constantly updated (TB or PB currently) Generated rate Per hour, day, ... More rapid Structure Data source Data integration Data store Access Structured Centralized Easy RDBMS Interactive Semi-structured or un-structured Fully distributed Difficult HDFS, NoSQL Batch or near real-time 图 1 大数据主要历史里程碑 Figure 1 Milestones of big data history 时间敏感的应用, 例如欺诈检测和 RFID 数据管理, 大数据以流的形式进入企业, 需要尽可能快地处 理数据并最大化其价值. 最后, 利用大量数据挖掘方法分析大数据集, 可以从低价值密度的巨量数据 中提取重要的价值. 3.2 大数据的历史 以往对大数据的演化过程通常从单方面的观点描述, 例如从年代 [18] 或技术里程碑 [19] 等方面. 本 文对大数据的演化过程则根据数据大小来刻画, 大数据的发展历史和有效存储管理日益增大的数据集 的能力紧密联系在一起. 每一次处理能力的提高都伴随着新数据库技术的发展, 如图 1 所示. 因此, 大 数据的历史可以大致分为以下几个阶段. Megabyte 到 Gigabyte: 20 世纪 70 年代到 80 年代, 历史上的商业数据从 Megabyte 达到 Gigabyte 的量级, 从而引入最早的 “大数据” 挑战. 当时的迫切需求是存储数据并运行关系型数据查询以完成商 业数据的分析和报告. 数据库计算机 (database machine) 随之产生, 它集成了硬件和软件解决问题, 其 思想是通过硬件和软件的集成, 以较小的代价获得较好的处理性能. 一段时间后, 专用硬件的数据库 计算机难以跟上通用计算机的发展. 因此, 后来的数据库系统是软件系统, 对硬件几乎没有什么限制, 可以运行在通用计算机上. Gigabyte 到 Terabyte: 20 世纪 80 年代末期, 数字技术的盛行导致数据容量从 Gigabyte 达到 5 Megabyte to GigabyteDatabase machine1970sGigabyte to TerabyteShared-nothingParallel database1980sTerabyte to PetabyteGFS and MapReduce1990sPetabyte to ExabyteIDC report2011Megabyte(MB)=210×210bytesGigabyte(BB)=210×210×210bytes Terabyte(TB)=210×210×210×210bytes Petabyte(PB)=210×210×210×210×210bytes Exabyte(EB)=210×210×210×210×210×210bytes
李学龙等: 大数据系统综述 Terabyte 级别, 这超出了单个计算机系统的存储和处理能力. 数据并行化技术被提出, 用于扩展存储 能力和提高处理性能, 其思想是分配数据和相关任务 (如构建索引和评估查询) 到独立的硬件上运行. 在此基础上, 提出了几种基于底层硬件架构的并行数据库, 包括内存共享数据库、磁盘共享数据库和 无共享 (share nothing) 数据库. 其中, 构建在互连集群基础上的无共享数据库取得了较大的成功. 集 群由多个计算机构成, 每个计算机有各自的 cpu、内存和磁盘 [20]. 在过去几年, 也出现了无共享数据 库类型的产品, 包括 Teradata6), Netazza7), AsterData8), Greenplum9) 和 Vertica10). 这些系统产品使 用关系型数据模型和说明性关系查询语言, 并成为使用分治法并行化数据存储的先驱. Terabyte 到 Petabyte: 20 世纪 90 年代末期, web 1.0 的迅猛发展将世界带入了互联网时代, 随 之带来的是巨量的达到 Petabyte 级别的半结构化和无结构的网页数据. 这需要对迅速增长的网页内 容进行索引和查询. 然而, 尽管并行数据库能够较好地处理结构化数据, 但是对于处理无结构的数据 几乎没有提供任何支持. 此外, 并行数据库系统的处理能力也不超过几个 Teragbytes. 为了应对 web 规模的数据管理和分析挑战, Google 提出了 GFS 文件系统 [21] 和 MapReduce 编程模型 [10]. GFS 和 MapReduce 能够自动实现数据的并行化, 并将大规模计算应用分布在大量商用服务器集群中. 运行 GFS 和 MapReduce 的系统能够向上和向外扩展, 因此能处理无限的数据. 2000 年代中期, 用户自主 创造内容 (user generated contents, UGC)、多种多样的传感器和其他泛在的数据源产生了大量的混合 结构数据, 这要求在计算架构和大规模数据处理机制上实现范式转变 (paradigm shift). 模式自由、快 速可靠、高度可扩展的 NoSQL 数据库技术开始出现并被用来处理这些数据. 2007 年 1 月, 数据库软 件的先驱者 JimGray 将这种转变称为 “第 4 范式” [22]. 他认为处理这种范式的唯一方法就是开发新 一代的计算工具用于管理、可视化和分析数据. Petabyte 到 Exabyte: 根据现有的发展趋势, 大公司存储和分析的数据毫无疑问将在不久后从 Petabyte 级别达到 Exabyte 级别. 然而, 现有的技术只能处理 Petabyte 级别的数据, 目前仍没有革命 性的新技术能够处理更大的数据集. 2011 年 7 月, EMC 发布了名为 “Extracting Value from Chaos” 的研究报告 [1], 讨论了大数据的思想和潜在价值. 该报告点燃了产业界和学术界对大数据研究的热情, 随后几年几乎所有重要的产业界公司, 如 EMC, Oracle, Microsoft, Google, Amazon 和 Facebook, 都开 始启动各自的大数据项目. 2012 年 3 月, 美国政府宣布投资 2 亿美元推动大数据研究计划, 并涉及 DAPRA、国家健康研究所 NIH、国家自然科学基金 NSF [7] 等美国国家机构. 3.3 大数据处理方式: 流式处理和批处理 大数据分析是在强大的支撑平台上运行分析算法发现隐藏在大数据中潜在价值的过程, 例如隐藏 的模式 (pattern) 和未知的相关性. 根据处理时间的需求, 大数据的分析处理可以分为两类. 流式处理: 流式处理假设数据的潜在价值是数据的新鲜度 (freshness) [23], 因此流式处理方式应 尽可能快地处理数据并得到结果. 在这种方式下, 数据以流的方式到达. 在数据连续到达的过程中, 由 于流携带了大量数据, 只有小部分的流数据被保存在有限的内存中. 流处理理论和技术已研究多年, 代表性的开源系统包括 Storm, S4 [24] 和 Kafka [25]. 流处理方式用于在线应用, 通常工作在秒或毫秒 级别. 6) http://www.teradata.com/. 7) http://www-01.ibm.com/software/data/netezza/. 8) http://www.asterdata.com/. 9) http://www.greenplum.com/. 10) http://www.vertica.com/. 6
中国科学 : 信息科学 第 45 卷 第 1 期 Table 2 Comparison between batch processing and stream processing 表 2 批处理和流处理比较 Input Data size Storage Hardware Processing Time Stream processing Stream of new data or updates Infinite or unknown in advance Batch processing Data chunks Known and finite Not store or store non-trial portion in memory Store Typical single limited amount of memory Multiple CPUs and memory A single or few pass(es) over data A few seconds or even milliseconds Multiple rounds Much longer Applications Web mining, sensor networks, traffic monitoring Widely adopted in almost every domain 批处理: 在批处理方式中, 数据首先被存储, 随后被分析. MapReduce 是非常重要的批处理模型. MapReduce 的核心思想是, 数据首先被分为若干小数据块 chunks, 随后这些数据块被并行处理并以 分布的方式产生中间结果, 最后这些中间结果被合并产生最终结果. MapReduce 分配与数据存储位置 距离较近的计算资源, 以避免数据传输的通信开销. 由于简单高效, MapReduce 被广泛应用于生物信 息、web 挖掘和机器学习中. 两种处理方式的区别如表 2 所示. 通常情况下, 流处理适用于数据以流的方式产生且数据需要得 到快速处理获得大致结果. 因此流处理的应用相对较少, 大部分应用都采用批处理方式. 一些研究也 试图集成两种处理方式的优点. 大数据平台可以选择不同的处理方式, 但是两种处理方式的不同将给相关的平台带来体系结构上 的不同. 例如, 基于批处理的平台通常能够实现复杂的数据存储和管理, 而基于流处理的平台则不能. 在实际应用中, 可以根据数据特性和应用需求订制大数据平台. 本文将主要针对基于批处理的大数据 平台进行探讨. 4 大数据系统架构 本节主要介绍大数据价值链, 大数据价值链由 4 个阶段构成: 数据生成、数据获取、数据存储和 数据分析. 4.1 大数据系统: 价值链观点 大数据系统是一个复杂的、提供数据生命周期 (从数据的产生到消亡) 的不同阶段数据处理功能 的系统. 同时, 对于不同的应用, 大数据系统通常也涉及多个不同的阶段 [26, 27]. 本文采用产业界广为 接受的系统工程方法, 将典型的大数据系统分解为 4 个连续的阶段, 包括数据生成、数据获取、数据 存储和数据分析, 如图 2 中水平轴所示. 数据生成阶段关心的是数据如何产生. 此时 “大数据” 意味着从多样的纵向或分布式数据源 (传 感器、视频、点击流和其他数字源) 产生的大量的、多样的和复杂的数据集. 通常, 这些数据集和领域 相关的不同级别的价值联系在一起 [2]. 本文将集中在商业、互联网和科学研究这三个重要的领域, 因 为这些领域的数据价值相对容易理解. 但是, 在收集、处理和分析这些数据集时存在巨大的技术挑战, 需要利用信息通信技术 (ICT) 领域的最新研究技术提出新的解决方案. 7
李学龙等: 大数据系统综述 图 2 大数据价值链及其技术地图 Figure 2 Big data value chain and technology map 数据获取则是指获取信息的过程, 可分为数据采集、数据传输和数据预处理. 首先, 由于数据来自 不同的数据源, 如包含格式文本、图像和视频的网站数据, 数据采集是指从特定数据生产环境获得原 始数据的专用数据采集技术. 其次, 数据采集完成后, 需要高速的数据传输机制将数据传输到合适的 存储系统, 供不同类型的分析应用使用. 再次, 数据集可能存在一些无意义的数据, 将增加数据存储空 间并影响后续的数据分析. 例如, 从监控环境的传感器中获得的数据集通常存在冗余, 可以使用数据压 缩技术减少数据传输量. 因此, 必须对数据进行预处理, 以实现数据的高效存储和挖掘. 数据存储解决的是大规模数据的持久存储和管理. 数据存储系统可以分为两部分: 硬件基础设施 和数据管理软件. 硬件基础设施由共享的 ICT 资源池组成, 资源池根据不同应用的即时需求, 以弹性 的方式组织而成. 硬件基础设施应能够向上和向外扩展, 并能进行动态重配置以适应不同类型的应用 环境. 数据管理软件则部署在硬件基础设施之上用于维护大规模数据集. 此外, 为了分析存储的数据 及其数据交互, 存储系统应提供功能接口、快速查询和其他编程模型. 数据分析利用分析方法或工具对数据进行检查、变换和建模并从中提取价值. 许多应用领域利用 领域相关的数据分析方法获得预期的结果. 尽管不同的领域具有不同的需求和数据特性, 它们可以使 用一些相似的底层技术. 当前的数据分析技术的研究可以分为 6 个重要方向: 结构化数据分析、文本 数据分析、多媒体数据分析、web 数据分析、网络数据分析和移动数据分析. 大数据的研究涉及许多学科技术, 图 2 显示了大数据技术地图, 图中将大数据价值链不同阶段和 相应的开源或专有技术联系在一起. 图 2 反映了大数据的发展趋势. 在数据生成阶段, 大数据的结构 逐渐复杂, 从结构化或无结构的数据到不同类型的混合数据. 在数据获取阶段, 数据采集、数据预处理 和数据传输的研究则出现在不同的时期. 而数据存储的相关研究则大部分始于 2005 年. 数据分析的 基本方法形成于 2000 年前, 随后的研究则使用这些方法解决领域相关的问题. 从该图中, 可以在不同 阶段选择合适的技术和方法定制大数据系统. 8 201020052000TimelineGenerationAcquisitionStorageAnalyticsUniverseobservationGovernmentsectorWebpageBussinessdataSocial networkEnvironmentmonitoringLarge-scale scientific experimentUGCE-commerceHealthcareLogfilesCrawlerWDMData IntegrationRadio telescopeData cleansingData compressionSensorDeduplicationOptic interconnectRFIDOFDM3-tier tree2-tier treeShared-nothing parallel databaseNoSQLGoogle file systemMapReducePNUTSMongoDBDynaMoDryadSimpleDBVoldmortBigTableCouchDBRedisCasandraHBasePregelData miningWeb miningStatistical analysisMultivariate statistical analysisText miningMultimedia analyticNetwork analyticRecommendationMobile analyticSocial network analyticMobile community detectionAll-pairsCommunity detection
分享到:
收藏