logo资料库

基于Hadoop的海量数据存储平台设计与开发.pdf

第1页 / 共7页
第2页 / 共7页
第3页 / 共7页
第4页 / 共7页
第5页 / 共7页
第6页 / 共7页
第7页 / 共7页
资料共7页,全文预览结束
计 算 机 研 究 与 发 展 Journal of Computer Research and Development  ISSN 1000-1239?CN 11-1777?TP 49(Suppl.):12-18,2012 基于 Hadoop 的海量数据存储平台设计与开发 崔   杰1   李陶深1   兰红星2 1(广西大学计算机与电子信息学院 2(广西工业和信息化委员会 南宁   (cuijietianlong@163.com) 南宁    530004)  530022) Design and Development of the Mass Data Storage Platform Based on Hadoop Cui Jie1,Li Taoshen1,and Lan Hongxing2 1(School of Computer,Electronics and Information,Guangxi University,Nanning530004) 2(Guangxi Industry and Information Technology Committee,Nanning530022) Abstract  With the development and utilization of BeiBu Bay Marine ecological resources,mass marine science data rapidly emerge in large numbers and it is very important to use a mass data storage platform to manage and store these science data reasonable.This paper puts forward the management and storage the mass marine science data methods based on the distributed computing technology, builds the mass marine science data storage platform solutions,designs and develops a mass data storage platform based on Hadoop by using Linux cluster technology.This system which consists of five modules includes system management module,parallel loading storage module,parallel query module,data dictionary module,backup and recovery module and it can achieve to store massive amounts of marine science data.The system module achieving result shows that this system enjoys good safety,reliability,easy maintenance and good expansibility. Key words mass data storage;marine science data;Hadoop;distributed computing 摘   要   随着北部湾海洋生态资源的开发和利用,海量海洋 科 学 数 据 飞 速 涌 现 出 来,利 用 海 量 数 据 存 储 这里提出了一种基于分 布 式 计 算 技 术 进 行 管 理 和 存 集 群 技 术,设 计 开 系统由五大模块组成,有系统管理模块、并行加载存储模块、 . 系 统 模 块 实 现 结 果 表 平台合理管理和存储这些科学数据显得极为重要 储海量海洋科学数据方法,构建了海量海洋科学数据存储平台解决 方 案 ,采 用 发一个基于 并行查询模块、数据字典模块、备份恢 复 模 块,能 够 实 现 存 储 海 量 海 洋 科 学 数 据 明,该系统安全可靠、易维护、具有良好的可扩展性 Hadoop 的海量数据存储平台 Linux . . . 关键词 海量数据存储;海洋科学数据;Hadoop;分布式计算   中图法分类号  TP311.13 随着《北部湾经 济 区 发 展 规 划》颁 布 实 施,以 北    部湾经济区海洋为研究样本的系列重大基础研究专 项和重大科学研究 项 目 正 在 逐一 展 开 ,届 时 将 产 生 海量的海洋科学 数 据,这 些 数 据 具 有 海 量、复 杂、多 样、异构、动态变化 等 特 性 而 且 目 前 各 项 目 的 海 洋 科学数据均缺乏统 一 的 采 集 和 存 储 的 标 准 及 规 范 , . 收稿日期:2012-01-04 基金项目:国家自然 科 学 基 金 项 目 (60963022);广 西 自 然 科 学 基 金 重 点 项 目 (桂 科 自     (L300249);广西研究生教育创新计划项目(GXU11T32550) 0832056);广 西 大 学 拔 尖 创 新 团 队 建 设 计 划 项 目
崔   杰等:基于 Hadoop 的海量数据存储平台设计与开发 31 如 何 存 储 和 管 理海 量 的 海 洋 科 学 形成“数据孤岛”. 数据,使这些数据得到高效的利用,成为进行海洋科 因 此 构 建 一 个 北 部 湾 海 洋 学研究项目的关键 之 一 . 显示层:为用户提供方便、易用和友好界面,普通 用户可以通过页面浏览和查询海洋数据 ,高级用户可 以利用系统提供的公共 接口,扩展系统[4]. API 科学数据存储平台是目前充分发挥各重大基础科学 业务逻辑层:并行处理海量海洋科学数据,并对 研究项目研究效益 的 现 实 途 径,也 是 北 部 湾 经 济 区 可持续发展的必然要求 . 传 统 的 对 大 规 模 数 据 处 理 大 多 使 用 分布 式 的 高性能计算、网格计算等技术,需要耗费昂贵的计算 资源,而且对于如 何 把 大 规 模 数 据有 效 分 割 和 计 算 任务的 合 理 分 配 都 需 要 繁 琐 的 编 程 才 能 实 现,而 分布式技术的 发 展 正 好 可 以 解 决 以 上 的 问 Hadoop 题 .Hadoop 是 Apache 开源组织 的 一 个 分 布 式 计 算 整个平台系统配置管理 . 数据资源层:是整个平台的基础,存储和管理海 量海洋科学数据 . 1.2  平台总体功能设计 从系统功能角度考虑,可以将整个系统分 层, 3 如图 所示: 2 框架,可以在大量 廉 价 的 硬 件 设 备组 成 的 集 群 上 运 行应用程序,构建一 个 具 有 高 可 靠性 和 良 好 扩 展 性 分布式文件系统(Hadoop 的并行分布式系统,Hadoop 编 程 Distributed File System,HDFS)、MapReduc 模型和 分布式数据库是其三大核心技术[1-3]. 分 集 群 技 术 的 基 础 上,利 用 本文在 Linux HBase Hadoop 布式技术,对北部湾 海 量 海 洋 科 学数 据 高 效 的 处 理 后存储到可扩展的 分 布 式 数 据库 中 ,设 计 并 实 现 一 个易扩展的高效的海量数据存储管理系统 . 图 2  系统功能分层设计 平台总体设计 1  平台总体框架结构 1.1  结合海量数 据 异 构 性、分 布 性、多 样 性 等 特 点, 层 从系统 编 程 实 现 角 度 考 虑,本 系 统 采 用 架构设计,使结构 更 加 清 晰,系 统 易 于 扩 展 体架构如图 系 统 整 . MVC 3 所示: 1 1 第 层是数据访问层 对于海量数据存储,在存 . 取数据时不会只局 限 对 一 种 数 据 库 的 操 作 ,本 层 需 要对各种数据库提 供 的 不 同 数 据 源 进 行 屏 蔽 ,提 供 数据库访问服务,这 样 系 统 才 能 够 适 应 处 理 存 储 海 量数据的要求,具有较好的可扩展性和完备性,方便 管理和部署 . 第 2 层 是 数 据 处 理 层 数 据 处 理 层 作 为 整 个 系 . 统的核心,同时也是本系统设计开发的重点内容 它 . 集群 技 术 等,提 供 了 采用分布式数据库技术 、Linux 对海 量 数 据 的 并 行 加 载 存 储 等 主 要 功 能 [5]. 该 层 通 过对海量数据并行 处 理 ,把 处 理 后 的 数 据 存 储 到 本 系统的分布式数据 库 中 ,同 时 还 提 供 了 保 证 系 统 能 够正常运行的管理支撑服务 . 5 该层分为 个功能模块:系统管理模块、并行加 载存储模块、并行 查 询 模 块、数 据 字 典 模 块、备 份 恢 复模块 . 1)系 统 管 理 模 块 又 分 为:负 载 平 衡 管 理、系 统 日志管理、对象事 务 管 理、系 统 远 程 部 署 管 理、自 主 系 统 管 理 模 块:对 系 统 实 现 分 布 式 管 维护管理等 . 理 负载平衡用于存储节点的负载均衡和容错管理; . 日志管理用户记录 系 统 运 行 的 运 行 轨 迹 、关 键 事 件 图 1  平台整体框架结构
41 计算机研究与发展  2012,49(增刊) 和状态记录等;对象 事 务 管 理 用 来对 系 统 事 务 处 理 及其一致性进行管 理;系 统 远 程 部 署 管 理 用 来 对 远 程集群的部署和配置,实现系统整体最优运行状态; 自主维护管理用来 对 系 统 自 身运 行 状 态 的 监 测 ,根 据 具 体 运 行 状 态 进 行 自 我 调 整 以 上 功 能 在 . 基础平台中可 以 通 过 合 理 配 置 其 组 件 来 实 Hadoop 现,让各个组件协同工作达到最优 . 2)并行加载存储模块又分为:并行数据加载模 所示: 模块、并行存储模块等 如图 块、并行 ETL . 3 图 3  并行加载存储模块组成 并行 加 载 存 储 模 块:提 供 对 海 量 数 据 的 并 行 加 并行加载模块将数据从其他外 载、处理和存储功能 设中 导 入 平 台 的 . HDFS;并 行 模 块 用 来 对 中的原始数 据 进 行 处 理 得 到 存 储 数 据;并 行 ETL HDFS 存储模块提供对处理后的数据进行存储 [6]. 3)并 行 查 询 模 块:提 供 对 海 量 数 据 的 并 行 查 询、用户自定义事务处理等功能 . 4)数据字典模块:为系统配 置一个全局的数据 字典,用于维护并行数据库的元数据信息 . 5)备份恢复模块:提供对系统存储数据的备份 管理、备份存储、备 份 恢 复 等 功 能,增 强 系 统 的 安 全 性和容错性 . 第 3 层是业务应用层 分为基于用户 . 界面 GUI 和基于算法库 API. 1)基于用 户 GUI 界 面:用 户 可 以 通 过 简单 应 用的操作界面工具 ,进行海量数据处理存储 . 2)基于算法库 用系统,调用 算 法 库 中 的 所需的应用功能 . API:对于高级用户可以编写 应 来 扩 展 本 系 统,实 现 API 平台网络拓扑结构 1.3  . 4 从图 中可以看出平台由多个数据库服务器和 应用服务器组成,这 些 数 据 库 服 务 器 可 以 在 同 一 地 域,也可分布在不同地域 随着数据量的增大和应用 需求的复杂变化,平台可以很容易的扩展,而这些变 动对用户来说都是 透 明 的 ,并 且 现 有 的 关 系 型 数 据 库系统也可以整合 到 该 平 台 中 ,通 过 去 异 构 化 处 理 共同 为 用 户 提 供 存 储 服 务[7],从 而 为 用 户 透 明 地 提 供存储和管理海量 海 洋 科 学 数 据 的 功 能 该 平 台 可 以安全、稳定、不间断的为政府、企业、个人等用户提 供海量数据存储服 务 ,使 北 部 湾 海 洋 科 学 数 据 能 够 得到妥善的存储管理 ,更大地发挥其研究利用价值, 为北部湾经济建设服务 . . 图 4  平台网络拓扑结构图
崔   杰等:基于 Hadoop 的海量数据存储平台设计与开发 1.4  平台数据库整体设计 结合 北 部 湾 海 洋 自 身特 点 ,分 析 其 海 量 数 据 的 结构类型,对北部湾 海 洋 科 学 数 据存 储 平 台 数 据 库 建 设 做 以 下 整 体 设 计,主 要 包 括 个 类 型 数 据 库[8-13]. 12 1)北 部 湾 沿 海 生 态 数 据 库 包 括:北 部 湾 海 洋 . 植物物种数据库;北部湾大型底栖生物物种数据库; 北部湾动物物种 及 标 本 数 据 库;名 贵、珍 稀、濒 危 海 洋动物 数 据 库;海 洋 经 济 鱼、虾、贝、藻 数 据 库;海 水 养殖动物(或鱼类,包括:外来养殖物种)种质资源元 数据库;海洋生物模式标本数据库等 . 2)北 部 湾 沿 海 遥 感 地 理 空 间数 据 库 包 括:资 . 源卫星数据库;遥感卫星图像检索数据库;北部湾沿 海地貌数据库等 . 3)北部湾沿 海 重 点 海 域 海 底 基 础 环 境 空 间 数 全面及时记 录 北 部 湾 沿 海 重点 海 域 海 底 基 础 据库 . 环境的基本情况,包括数字地形地貌、海底底质性质 与分布特征,及海 底 沉 积 物 粒 度 分 析、矿 物 分 析、地 球化学分析、微古分 析 结 果 及 海 洋 钻 探 计 划 (ODP) 勘测信息等 . 4)海 洋 基 础 地 理 地 图 数 据 库 内 容 包 括:海 岸 . 线及滩涂,岛屿、礁 石、浅 滩,海 域 水 深 及 地 形 (等 深 线),沿岸陆域水系,陆地地形(等高线),重要的居民 地,交 通 网,境 界 线 (国 界、省 市 界、县 界、领 海 基 线 等),地名和地理名称及相关要素注记,区域界线等 . 包 括:营 养 盐 . 数据库;温盐深声 学 数 据 库;流 速 数 据 库;海 面 气 象 数据库;潮汐数据库;波浪数据库等 提供水文循环、 . 大气对流、闪电、恶 劣 天 气 等 大尺 度 的 数 据 共 享 ,包 括实时和历史的数据 5)北 部 湾 沿 海 海 洋 水 文 数 据 库 . 6)北 部 湾 沿 海 环 境 数 据 库 包 括:潮 汐 预 报 信 . 息数据库;海洋台 站 数 据 库;海 流 资 料 数 据 库;海 洋 气象观测资料数据库;海洋环境质量数据库等 . 7)北 部 湾 海 洋 经 济 数 据 库 包 括:北 部 湾 海 洋 . 综合经济数据库;海洋水产数据库;海洋石油天然气 数据库;海滨砂矿 数 据 库;海 洋 盐 业 数 据 库;沿 海 造 船数据库;海洋交通运输数据库;北部湾沿海旅游数 据库等 . 8)北 部 湾 海 洋 资 源 数 据 库 包 括:北 部 湾 沿 海 . 海岛概况数据库;沿 海 主 要 港 口 码头 泊 位 及 吞 吐 能 力数据库;沿海盐场资源数据库;海洋石油天然气资 源数据库;海洋旅游资源数据库;海洋自然保护区数 据库;潮汐能资源 数 据 库;波 浪 能 资 源 数 据 库;潮 流 能资源数据库和海底电缆管道资源数据库等 51 . 9)海 洋 标 准 数 据 库 主 要 收 集 与 海 洋、水 产 相 . 关的国家标准和行业标准 ,全部为 PDF 格式 . 10)海洋法规数据库 收集与海洋、水产有关的 . 中国 法 律、行 政 法 规、部 委 规 章、司 法 解 释、地 方 法 规、港澳台相关法 律、国 际 条 约 及 中 共 中 央 政 策、其 他机构文件库、判例案例、论文、合同范本等 . 11)中外文海洋数据库 分水产养殖、水产品加 . 工贮藏与综合利 用、水 生 生 物 学、海 洋 生 物 学、海 洋 生物工程、海洋渔 业、海 洋 化 学、海 洋 环 境 与 污 染 治 理、海 洋 地 质、海 洋 管 理、物 理 海 洋 学 等 专 题 同 时, . 也收录了中国大陆 公 开 发 表 的 海 洋 、水 产 方 面 的 期 刊论文,以全文的形式反映我国海洋、水产专业的学 术发展水平 . 12)海洋音视频数据库 收录与海洋、水产有关 . 的音视频方面的文 献 ,这 些 音 视 频 文 献 可 以 使 用 通 用的媒体播放器播放 ,并可提供下载服务 . 目前 数 据 收 集 工 作 正 在 进 行 中,数 据 库 的 建 设 也在同步进行,把海 量 科 学 数 据 经 过 处 理 存 储 起 来 统一管理 . 海量数据存储平台开发 2  根据 本 平 台 功 能 设 计,存 储 平 台 最 主 要 的 部 分 是数据处理层,而在实现数据处理层时,数据的并行 加载存储模块成为了整个平 台实 现的 核心 ,Hadoop 分布式技术为该平台提供了数据存储和数据处理的 模型及方法[14-15]. 储海量源数据,通过 MapReduce 处理这些海量源数据 ,然后采用 分布 式 数 据 库存储处理后的海 量 数 据 ,以 此 来 实 现 对 海 量 海 洋 科学数据的存储管理 分 布 式 文 件 系 统 存 分布式计算模型来 Hadoop HBase 使 用 . 2.1 Hadoop 分布式文件系统 HDFS 是分布式 计 算 的 存 储 基 础,它 具 有 高 容 错性,可以部署在廉价的硬件设备上,用来存储海量 数据集,并 且 提 供 了 对 数 据读 写 的 高 吞 吐 率 [7-8]. 为北部湾海洋科学数据提供了海量存储的基 HDFS 础,作 为 未 处 理 的 源 数 据 集 保 存 在 文件系统中 Hadoop 分 布 式 Master?Slave 和很多个 NameNode 一个 DataNode .NameNode 是主控服务器,管理文件系统元数据 它执行文件系 统的命名空间操 作,比 如 打 开、关 闭、重 命 名 文 件 或 组成 . . 采用 HDFS 的体系结构,集群中由
61 计算机研究与发展  2012,49(增刊) DataNode 目录,还决定数据块到 .DataNode 存储实际的 数 据,负 责 处 理 客 户 的 读 写 请 求,依 照 的 命 令,执 行 数 据 块 的 创 建、复 制、删 除 的设计大 大 NameNode 等工作 一个集群只有一个 的映射 . 简化了系统架构 体系结构如图 . NameNode 所示: 5 图 6 MapReduce 计算模型 Reduce 来 k 值 进 行 Group 以 元 组 ,对 这 些 元 组 分 割 成 操 作,形 成 新 的 ?k,list(value)? 个 片 段 进 行 并 行 的 操 作 ,最 后 输 出 到 分 布 式 数 据 库 中 保 存 起 R .MapReduce 计 算 模 型 的 实 现 是 由 JobTracker Map 任务和 TaskTracker 这 两 类 服 务 调 度 的 和 .JobTracker 是 主 控 服 务 器,只 有 一 个,负 责 调 度 和 管 理 任务分配给空 TaskTracker,把 TaskTracker,并 负 责 监 控 任务 的 运 行 情 况 ; 闲 的 是 从 服 务,可 以 有 多 个,负 责 执 行 任 TaskTracker 是 运 行 在 一 组 相 同 务 的节点上的,即计算机点和存储节点通常在一起,方 便高效地调度任务 MapReduce Reduce HDFS 通 常 和 . . 2.3 HBase 分布式数据库 HBase 是一 个 功 能 强 大 的 分 布 式 数 据 存 储 系 3 . 数据行有 统,基于列存储数据记录 种基本类型定 义:行 关 键 字 (Row Key),时 间 戳 (Time Stamp)和 每 行 包 括 一 个 可 排 序 的 行 关键 字 ,是 列(Column). 一个可选的时间戳,每次 数据行在表中的唯一标示 . 某 些 列 中 可 以 有数 据 也 可 以 没 有 列 定 义 为:?family?:?label? . (?列族?:?标签?),通过这两部分唯一指定一个数据 的存储列 计 数据操作都有一个 相 关 联 的 时 间 戳 海量的海洋科学数据经过 . MapReduce . 值 作 为 行 关 键 字 进 行 分 布 式 算以后就可以按 其 存储,实现存储和管理海量数据功能 数据的存储如表 K 所示: 1 海洋有关科学 . 表 1  数据存储示例 行关键字 时间戳 列?ID? 列?type? halobios T8 T5 T2 1 type:plant  waterweeds type:anmial  fish 对以行 名 称 为 halobios,在 时 刻 T2 对 列 族 ID 图 5 HDFS 体系结构 NameNode 使用事务日志(EditLog)来记录 HDFS 元数据的 每 次 变 化,使 用 映 像 文 件 (FsImage)存 储 文件系统的命名空间,包括数据块到文件的映射、文 件的属性等等 的 核 事务日 志 和 映 像 文 件 是 HDFS . 心数据结构 .NameNode 启动时,它将从磁盘中读取 映像文件和事务日 志,把 事 务 日 志 的 事 务 都 应 用 到 内存中的映像文件 上,然 后 将 新 的 元 数 据 刷 新 到 本 地磁盘新的映像文件中 . HDFS 节点,辅助 它会定期 从 还设 计 有 特 殊 的 Secondary NameNode NameNode 处 理 映 像 文 件 和 事 务 日 志 . NameNode 上 复 制 映 像 文 件 和 事 务 日 志到临时目录,合并 生 成 新 的 映 像文 件 后 再 重 新 上 传到 更 新 映 像 文 件 并 清 理 NameNode,NameNode 事务日志,使得事务 日 志 的 大 小 始终 控 制 在 某 个 特 定的限度下 . 2.2 MapReduce 编程 就是“任务 的 分 解 与 结 果 的 汇 总”. 把分解后多 MapReduce 把任务分解成为多个任务 ,Reduce Map 任 务 处 理 的 结 果 汇 总 起 来,得 到 最 终 结 果 把 从 . 中读取的待处理的海量海洋科学数据分解成 HDFS 许多小数据集,每一个小数据集都并行处理,处理后 存储到分 布 式 数 据 库 归 纳 如 下:数 据 集 分 割 ?k1, . v1?map?k2,v2?combine?k2,list(v2)?reduce?k3,v3? 结果输出 计算模型如图 所示 . 6 . 将海量海洋科 学 数 据 分 割 个 片 段 进 行 并 行 操作,然 后 形 成 中 间 态 键 值 对 ?k,value?,接 着 M Map
崔   杰等:基于 Hadoop 的海量数据存储平台设计与开发 71 对列族 type:plant 添 加 对 列 族 T8 type:anmial 及本地存储本地计 算 的 处 理 模 式 ,为 高 效 的 处 理 海 量海洋数据作了基础准备 . 的添加数据“1”,在时刻 T5 数据 “waterweeds”,在 时 刻 添加数据“fish”. HBase 部分组成 主 要 由 主 服 务 器、子 表 服 务 器 和 客 户 端 主服务器作为 的中心,管理整个 3 集群中的所有子表 服 务 器,监 控 每 个 子 表 服 务 器 的 运行情况等 子表服 务 器 接 收 来 自主 服 务 器 的 分 配 HBase . . 的子表、处理客户 端 的 读 写 请 求、缓 冲 区 回 收、压 缩 客 户 端 主 要 负责 查 找 用 户 子 表 和分割子表等功能 . 所在的子表服务器地址信息 . 平台 还 可 以 整 合 现 有的 关 系 型 数 据 库 ,通 过 去 这 里 异构化处理共 同 提 供 海 量 数 据 存 储 服 务 [16-17]. 对关系型数据库开发由于篇幅原因不再赘述 . 海量存储平台特性 3  结束语 4  本文设计并开发了基于 学数据存储平台 采用 . 的海量海洋科 Linux Hadoop 集群技术、并行分布式 分布式平台[14-15]作为基础, 并 行 Hadoop 分 布 式 文 件 系 统、Map?Reduce HBase 数 据 库 技 术 作 为 处 理 海 量 数 数据库技术、以 主要以 HDFS 计算模型以 及 据方法,在大量的廉价普通计算机上搭建该平台,达 到了高效存储和管理北部湾海量海洋科学数据的要 求 目前该海量数据存储平台还在开发中,平台模块 . 实现的结果表明,系统具有良好扩展性和易维护性, 系统采用的技术路线和设计方法是有效和可行的 . 以往海洋科学数据存储系统大多采用传统的集 参 考 文 献 群、网格计 算 技 术,耗 费 昂 贵 的 计 算 资 源 且 效 率 不 高,可靠性不强等,这里与本平台原型作以下比较如 表 所示 2 . 表 2  本平台和以往海洋数据存储系统的比较 特性种类 以往海洋数据 存储平台 基于 Hadoop 海洋 数据存储平台 设计理念 共享数据资源和高性能 计算 高端计算机(服务器, 集群) 单一 低效 可变但有限 非虚拟化 组成 功能 性能 容量 资源 应用类型 科学计算 通用 计 算 和 存 储 平 台,共 享资源 廉价 PC 可实现 丰富,高扩展性,按需增加 高效且高可靠性 按需提供 虚拟化 数据处理 综上所述,本平台基于 分布式技术,使 编程和实现起来都 比 较 容 易,能 够 高 效 地 存 储 管 理 海量数据,具体来说有以下特性: Hadoop 1)可扩展性 2)经济性 . 运行在廉价的 . 基于 具有存储可扩展和计算可扩展性 . 的海量存储平台可 以 Hadoop PC 上,无需昂贵的大型机 . 3)安 全 可 靠 性 .HDFS 的 备 份 恢 复 机 制 以 及 的任务 监 控 机 制 保 证 了 分 布 式 处 理 的 MapReduce 可靠性 . 4)高效性 分布式文件系统 的高效数据交互以 . [1] Hayes B.Cloud computing.Communications of the ACM, 2008,51(7):9-11 [2] Hadoop.[2010-12-06].http:??hadoop.apache.org? [3] 陈康,郑纬民 云 计 算:系 统 实 现 与 研 究 现 状 . . 软 件 学 报, 2009,20(5):1337-1348 [4] Armbrust M,Fox A,Griffith R,et al.Above the clouds:A berkely view of cloud computing. Berkely, CA, USA: University of California,2009 [5] Parbhakar Chaganti.Cloud computing with Amazon Web Services.Part 5: Dataset processing in the cloud with SimpleDB.2009. [2010-12-28]. http:??www.ibm.com? developerworks?library?ar-cloudaws5? [6] Dean J, Ghemawat  S. MapReduce: Simplifier  date processing on large clusters.Communications of the ACM, 2008,51(1):107-113 联邦式异构数据库应用系 统 的 集 成 框架 和 实 现 [7] 李俊,李勇 技术的研究 . 计算机应用研究,2001,18(4):19-22 . [8] 科学数据共 享 工 程 项 目 组 . 科 学 数 据 共 享 工 程 门 户 网 站 . [2010-12-10].http:??www.sciencedata.cn.2010 [9] 地球系统科学数 据 共 享 网 项 目 组 地 球 系 统 科 学 数 据 共 享 . 网 .[2010-12-10].http:??www.geodata.cn.2010 [10] 国家 测 绘 局 . 测 绘 科 学 数 据 共 享 服 务 网 .[2010-12-10]. http:??sms.webmap.cn.2010 [11] 国家海洋信息中心 海洋科学数据共享 中 心 . .[2010-12-10]. http:??www.mds.sciencedata.cn.2010 [12] 国家气象局 中国气象科学数据共享服 务 网 . .[2010-12-10]. http:??cdc.cma.gov.cn.2010 [13] 基础 科 学 数 据 共 享 服 务 网 . 基 础 科 学 数 据 共 享 服 务 网 . [2010-12-10].http:??www.nsdc.cn.2010
81 计算机研究与发展  2012,49(增刊) [14] 陆 嘉恒,文继荣,孟小峰,等 京:清华大学出版社,2010 分布式系统及云计算概论 . 北 . 会员,主要研究方向为云计算数据处理、并行分布式 计 算、信 息安全研究 . [15] 刘鹏 云计算 . 北京:电子工业出版社,2010 . [16] Bakis N, Aouad G, Kagioglou M. Towards distributed product  data  sharing  environments. Automation  in Construction,2007,12(16):586-595 数据仓库概述 [17] 余华鸿,李颖,张玉川 . 计算机与信 息 技 术, . 2007,10(13):79-99    崔 杰 男,1986     年 生,硕 士 研 究 生,中 国 计 算 机 学 会   李陶深 男,1957 年生,博 士,教 授,中 国 计 算 机 学 会 高    级会员,主要研究方向为分布式数据库、网络信息安 全、网 络 路由算法、无线 网络 Mesh . 兰红星 男,1956 年生,博 士,研 究 员,主 要 研 究 方 向 为    计算机网络与并行分布式计算、网络信息安全   .
分享到:
收藏