logo资料库

某大数据平台整体方案建议书.docx

第1页 / 共520页
第2页 / 共520页
第3页 / 共520页
第4页 / 共520页
第5页 / 共520页
第6页 / 共520页
第7页 / 共520页
第8页 / 共520页
资料共520页,剩余部分请下载后查看
1项目概述
1.1建设背景
1.1.1集团已有基础
1.1.2痛点及需提升的能力
1.1.3大数据趋势
1.2建设目标
1.2.1总体目标
1.2.2分阶段建设目标
1.3与相关系统的关系
1.3.1数据分析综合服务平台
1.3.2量收系统
1.3.3金融大数据平台
1.3.4各生产系统
1.3.5CRM
1.4公司介绍和优势特点
1.4.1IDEADATA
1.4.2TRANSWARP
1.4.3我们的优势
2业务需求分析
2.1总体需求
2.2数据管理
2.2.1数据采集
2.2.2数据交换
2.2.3数据存储与管理
2.2.4数据加工清洗
2.2.5数据查询计算
2.3数据管控
2.4数据分析与挖掘
2.5数据展现
2.6量收系统功能迁移
3系统架构设计
3.1总体设计目标
3.2总体设计原则
3.3案例分析建议
3.3.1中国联通大数据平台
3.3.1.1项目概述
3.3.1.2项目实施情况
3.3.1.3项目成果
3.3.1.4项目意义
3.3.2恒丰银行大数据平台
3.3.2.1项目概述
3.3.2.2项目实施情况
3.3.2.3项目成果
3.3.2.4项目意义
3.3.3华通CDN运营商海量日志采集分析系统
3.3.3.1项目概述
3.3.3.2项目实施情况
3.3.3.3项目成果
3.3.3.4项目意义
3.3.4案例总结
3.4系统总体架构设计
3.4.1总体技术框架
3.4.2系统总体逻辑结构
3.4.3平台组件关系
3.4.4系统接口设计
3.4.5系统网络结构
4系统功能设计
4.1概述
4.2平台管理功能
4.2.1多应用管理
4.2.2多租户管理
4.2.3统一运维监控
4.2.3.1Hadoop集群自动化部署
4.2.3.2Hadoop集群性能监控
4.2.3.3Hadoop集群资源管理
4.2.3.4图形界面方式多租户管理
4.2.3.5系统巡检信息收集
4.2.3.6系统性能跟踪
4.2.3.7与集团运维监控平台对接
4.2.4作业调度管理
4.3数据管理
4.3.1数据管理框架
4.3.1.1结构化数据管理框架
4.3.1.2半/非结构化数据管理框架
4.3.2数据采集
4.3.3数据交换
4.3.4数据存储与管理
4.3.4.1数据存储管理功能
4.3.4.2数据多温度管理
4.3.4.3生命周期管理
4.3.4.4多索引模式
4.3.4.5多数据副本管理
4.3.4.6数据平衡管理
4.3.4.7在线节点管理
4.3.4.8分区管理
4.3.4.9数据导入与导出
4.3.4.10多级数据存储
4.3.4.11多种数据类型支持
4.3.4.12多种文件格式支持
4.3.4.13数据自定义标签管理
4.3.4.14数据读写锁处理
4.3.4.15元数据备份
4.3.4.16表压缩
4.3.5数据加工清洗
4.3.6数据计算
4.3.6.1多计算框架支持
4.3.6.2并行计算与并行处理能力
4.3.6.3PL/SQL存储过程
4.3.6.4分布式事务支持
4.3.6.5ACID测试案例
4.3.7数据查询
4.3.7.1OLAP函数支持
4.3.7.2分布式 Cube
4.3.7.3SQL兼容性
4.3.7.4SQL功能
4.4数据管控
4.4.1主数据管理
4.4.2元数据管理技术
4.4.3数据质量
6)数据清理
4.5数据ETL
4.6数据分析与挖掘
4.6.1数据分析流程
4.6.2R语言开发环境与接口
4.6.3并行化R算法支持
4.6.4可视化R软件包
4.6.5编程语言支持
4.6.6自然语言处理和文本挖掘
4.6.7实时分析
4.6.8分析管理
4.6.8.1需求管理
4.6.8.2过程管理
4.6.8.3成果管理
4.6.9分析支持
4.6.10指标维护
4.6.11分析流程固化
4.6.12分析结果发布
4.6.13环境支持
4.7数据展现
4.7.1交互式报表
4.7.2仪表盘
4.7.3即席查询
4.7.4内存分析
4.7.5移动分析
4.7.6电子地图支持
5技术要求实现
5.1产品架构
5.1.1基础构建平台
5.1.2大数据平台组件功能介绍
5.1.2.1Transwarp Hadoop分布式文件系统
5.1.2.2Transwarp Inceptor内存分析交互引擎
5.1.2.3稳定的Spark计算框架
5.1.2.4支持Memory+SSD的混合存储架构
5.1.2.5完整SQL功能支持
5.1.2.6Transwarp Discover机器学习引擎
5.1.2.7并行化统计算法库
5.1.2.8机器学习并行算法库
5.1.2.9Transwarp Hyperbase列式存储数据库
5.1.2.10智能索引
5.1.2.11全局索引
5.1.2.12全文索引
5.1.2.13索引类型
5.1.2.14图数据库
5.1.2.15全文数据处理
5.1.2.16Transwarp Stream数据实时处理分析
5.1.2.17分布式消息队列
5.1.2.18流式计算引擎
5.1.2.19流式SQL执行
5.1.2.20流式机器学习
5.1.3系统分布式架构
5.2运行环境支持
5.2.1系统操作支持以及环境配置
5.2.2与第三方软件平台的兼容说明
5.3客户端支持
5.3.1客户端支持
5.3.2移动端支持
5.4数据支持
5.5集成实现
5.6运维实现
5.6.1运维目标
5.6.2运维服务内容
5.6.3运维服务流程
5.6.4运维服务制度规范
5.6.5应急服务响应措施
5.6.6平台监控兼容
5.6.7资源管理
5.6.8系统升级
5.6.9系统监控平台功能
5.6.9.1性能监控
5.6.9.2一键式收集
5.6.9.3系统资源监控图形化
5.6.9.4服务进程监控
5.6.9.5消息队列监控
5.6.9.6故障报警
5.6.9.7告警以及统巡检以及信息收集
5.7平台性能
5.7.1集群切换
5.7.1.1主集群异常及上层业务切换
5.7.1.2从集群异常及上层业务切换
5.7.2节点切换
5.7.3性能调优
5.7.3.1图形化性能监控
5.7.3.2图形化调优工具
5.7.3.3调优策略
5.7.4并行化高性能计算
5.7.5计算性能线性扩展
5.8平台扩展性
5.9可靠性和可用性
5.9.1单点故障消除
5.9.2容灾备份优化
5.9.2.1扩容、备份、恢复机制
5.9.2.2集群数据容灾优化
5.9.2.3数据完整性保障和方案
5.9.2.4主集群异常及上层业务切换
5.9.2.5从集群异常及上层业务切换
5.9.3系统容错性
5.10开放性和兼容性
5.10.1高度支持开源
5.10.1.1PMC-HaoyuanLi
5.10.1.2Committor-AndrewXia
5.10.1.3Committor-ShaneHuang
5.10.1.4Committor-ZhihongYu
5.10.1.5Committor-JasonDai
5.10.1.6Committor-WeiXue
5.10.2操作系统支持以及软件环境配置
5.10.3兼容性与集成能力
5.11安全性
5.11.1身份鉴别
5.11.2访问控制
5.11.3安全通讯
5.12核心产品优势
5.12.1高速运算、统计分析和精确查询
5.12.1.1Spark引擎结合分布式内存列存提供高性能计算
5.12.1.2多种索引支持与智能索引
5.12.2有效的资源利用
5.12.3高并发、低延迟性能优化
5.12.4计算资源有效管控
5.12.5API设计和开发工具支持
5.12.6友好的运维监控界面
5.12.7扩容、备份、恢复机制
5.12.8集群自动负载均衡
5.12.9计算能力扩展
5.13自主研发技术优势
5.13.1高稳定、高效的计算引擎Inceptor
5.13.2完整的SQL编译引擎
5.13.3高性能的SQL分析引擎
5.13.4SQL统计分析能力
5.13.5完整的CURD功能
5.13.6Hyperbase高效的检索能力
5.13.7基于Hyperbase和SQL引擎的高并发分布式事务
5.13.8Hyperbase非结构化数据的支持
5.13.9机器学习与数据挖掘
5.13.10Transwarp Stream
5.13.11内存/SSD/磁盘混合存储
5.13.12MR/Spark/流处理统一平台
5.13.13多租户支持能力
5.13.14多租户安全功能
5.13.15标准JDBC与ODBC接口
6系统性能指标和测试结果说明
6.1性能测试报告
6.1.1测试目标
6.1.2测试内容
6.1.3测试环境
6.1.4测试过程和结果
6.2TPC-DS测试报告
6.2.1测试目标
6.2.2测试内容
6.2.3测试环境
6.2.4测试过程和结果
6.3量收迁移验证性测试报告
6.3.1测试目标
6.3.2测试内容
6.3.3测试环境
6.3.4串行执行情况
6.3.5并行执行情况
6.3.6生产表数据规模
6.3.7测试结果
6.4某银行性能测试报告
6.4.1测试目标
6.4.2测试内容
6.4.3测试环境
6.4.4测试过程和结果
7系统配置方案
7.1硬件系统配置建议
7.1.1基础Hadoop平台集群配置规划
7.1.2数据仓库集群配置规划
7.1.3集群规模综述
7.1.4开发集群配置建议
7.1.5测试集群配置建议
7.2软件配置建议
7.3软硬件配置总表
7.4网络拓扑
8系统测试
8.1系统测试方法
8.2系统测试阶段
8.3系统测试相关提交物
9项目实施
9.1项目实施总体目标
9.2项目管理
9.3业务确认
9.4数据调研
9.5系统设计阶段
9.6集成部署阶段
9.7ETL过程设计
9.8ETL开发与测试
9.9系统开发阶段
9.10系统测试阶段
9.11系统上线及验收
9.12提交物
9.13系统的交接与知识转移
10项目管理
10.1项目总体管理
10.1.1项目实施总流程
10.1.2项目实施中各阶段的主要任务
10.1.3项目组织架构
10.1.4项目负责人及主要成员
10.1.4.1沈晖
10.1.4.2赵守云
10.1.4.3孙元浩
10.1.4.4李磊
10.1.4.5石磊
10.1.4.6李辉
10.1.4.7胡刚
10.1.4.8吕潇
10.1.4.9饶小炎
10.1.4.10李俊
10.1.4.11李源
10.1.4.12黄健
10.1.4.13王小宜
10.1.4.14毕敬伟
10.1.4.15胡中鹤
10.1.4.16吕泰昌
10.1.4.17李广彬
10.1.4.18刘汪根
10.1.4.19吕程
10.1.4.20朱珺辰
10.1.4.21魏矿
10.1.4.22王海洋
10.1.4.23刘天骄
10.1.4.24胡益斌
10.1.4.25宋企皋
10.1.4.26刘熙
10.1.4.27颜磊
10.1.4.28陈晓勇
10.1.4.29于鸿
10.1.4.30付万军
10.1.5项目管理制度
10.2项目质量管理
10.2.1范围
10.2.2过程目标
10.2.3角色与职责
10.2.4过程活动
10.3项目计划
11安全保密
12知识产权
13技术服务
13.1现场支持服务
13.2标准售后技术服务
13.2.1提供预防性维护
13.2.2系统升级服务
13.2.3系统性能优化
13.2.4提供系统完整文档
13.2.5定期系统健康检查服务
13.2.6应急预案
13.3承诺
13.3.1我方对集团的承诺
13.3.2关于开发队伍的承诺
13.4技术保证
13.4.1方案实用性保证
13.4.2应用系统的运行能力的保证
13.4.3预防性维护检修内容
13.4.4服务响应
13.4.5关于软件维护的保证
13.4.6专业服务保证
13.4.7售后服务流程及时限
14人员培训
14.1Hadoop系统培训
14.2业务使用培训
14.3分析挖掘培训
14.4运行维护培训
14.5开发培训
14.5.1培训目标
14.5.2培训方式
14.5.3培训资源
集团大数据平台 整体方案建议书 1
目 录 1 项目概述..................................................................................................................................14 1.1 建设背景 ..............................................................................................................................14 1.1.1 集团已有基础.................................................................................................................14 1.1.2 痛点及需提升的能力.....................................................................................................14 1.1.3 大数据趋势.....................................................................................................................15 1.2 建设目标 ..............................................................................................................................15 1.2.1 总体目标.........................................................................................................................15 1.2.2 分阶段建设目标.............................................................................................................16 1.3 与相关系统的关系 ..............................................................................................................16 1.3.1 数据分析综合服务平台.................................................................................................16 1.3.2 量收系统.........................................................................................................................17 1.3.3 金融大数据平台.............................................................................................................18 1.3.4 各生产系统.....................................................................................................................18 1.3.5 CRM................................................................................................................................18 1.4 公司介绍和优势特点..........................................................................................................18 1.4.1 IDEADATA..................................................................................................................... 18 1.4.2 TRANSWARP................................................................................................................20 1.4.3 我们的优势.....................................................................................................................21 2 业务需求分析.......................................................................................................................... 24 2.1 2.2 总体需求 ..............................................................................................................................24 数据管理 ..............................................................................................................................25 2
2.2.1 数据采集.........................................................................................................................26 2.2.2 数据交换.........................................................................................................................26 2.2.3 数据存储与管理.............................................................................................................26 2.2.4 数据加工清洗.................................................................................................................27 2.2.5 数据查询计算.................................................................................................................27 2.3 2.4 2.5 2.6 数据管控 ..............................................................................................................................28 数据分析与挖掘 ..................................................................................................................29 数据展现 ..............................................................................................................................29 量收系统功能迁移 ..............................................................................................................30 3 系统架构设计.......................................................................................................................... 31 3.1 3.2 3.3 总体设计目标......................................................................................................................31 总体设计原则......................................................................................................................31 案例分析建议......................................................................................................................32 3.3.1 中国联通大数据平台.....................................................................................................32 3.3.2 恒丰银行大数据平台.....................................................................................................39 3.3.3 华通CDN运营商海量日志采集分析系统..................................................................51 3.3.4 案例总结.........................................................................................................................56 3.4 系统总体架构设计 ..............................................................................................................57 3.4.1 总体技术框架.................................................................................................................57 3.4.2 系统总体逻辑结构.........................................................................................................60 3.4.3 平台组件关系.................................................................................................................62 3.4.4 系统接口设计.................................................................................................................67 3
3.4.5 系统网络结构.................................................................................................................71 4 系统功能设计.......................................................................................................................... 73 4.1 4.2 概述......................................................................................................................................73 平台管理功能......................................................................................................................73 4.2.1 多应用管理.....................................................................................................................73 4.2.2 多租户管理.....................................................................................................................77 4.2.3 统一运维监控.................................................................................................................78 4.2.4 作业调度管理.................................................................................................................97 4.3 数据管理 ..............................................................................................................................99 4.3.1 数据管理框架.................................................................................................................99 4.3.2 数据采集.......................................................................................................................101 4.3.3 数据交换.......................................................................................................................104 4.3.4 数据存储与管理...........................................................................................................105 4.3.5 数据加工清洗...............................................................................................................123 4.3.6 数据计算.......................................................................................................................124 4.3.7 数据查询.......................................................................................................................139 4.4 数据管控 ............................................................................................................................158 4.4.1 主数据管理...................................................................................................................158 4.4.2 元数据管理技术...........................................................................................................160 4.4.3 数据质量.......................................................................................................................163 4.5 4.6 数据 ETL............................................................................................................................ 169 数据分析与挖掘 ................................................................................................................172 4
4.6.1 数据分析流程...............................................................................................................174 4.6.2 R语言开发环境与接口............................................................................................... 175 4.6.3 并行化R算法支持...................................................................................................... 175 4.6.4 可视化R软件包.......................................................................................................... 178 4.6.5 编程语言支持...............................................................................................................180 4.6.6 自然语言处理和文本挖掘...........................................................................................181 4.6.7 实时分析.......................................................................................................................181 4.6.8 分析管理.......................................................................................................................182 4.6.9 分析支持.......................................................................................................................186 4.6.10 指标维护.................................................................................................................. 186 4.6.11 分析流程固化.......................................................................................................... 187 4.6.12 分析结果发布.......................................................................................................... 187 4.6.13 环境支持.................................................................................................................. 187 4.7 数据展现 ............................................................................................................................188 4.7.1 交互式报表...................................................................................................................190 4.7.2 仪表盘...........................................................................................................................195 4.7.3 即席查询.......................................................................................................................196 4.7.4 内存分析.......................................................................................................................197 4.7.5 移动分析.......................................................................................................................198 4.7.6 电子地图支持...............................................................................................................198 5 技术要求实现........................................................................................................................ 200 5.1 产品架构 ............................................................................................................................200 5
5.1.1 基础构建平台...............................................................................................................203 5.1.2 大数据平台组件功能介绍...........................................................................................204 5.1.3 系统分布式架构...........................................................................................................242 5.2 运行环境支持....................................................................................................................244 5.2.1 系统操作支持以及环境配置.......................................................................................244 5.2.2 与第三方软件平台的兼容说明...................................................................................245 5.3 客户端支持 ........................................................................................................................246 5.3.1 客户端支持...................................................................................................................246 5.3.2 移动端支持...................................................................................................................246 5.4 5.5 5.6 数据支持 ............................................................................................................................246 集成实现 ............................................................................................................................248 运维实现 ............................................................................................................................250 5.6.1 运维目标.......................................................................................................................250 5.6.2 运维服务内容...............................................................................................................251 5.6.3 运维服务流程...............................................................................................................253 5.6.4 运维服务制度规范.......................................................................................................255 5.6.5 应急服务响应措施.......................................................................................................256 5.6.6 平台监控兼容...............................................................................................................256 5.6.7 资源管理.......................................................................................................................257 5.6.8 系统升级.......................................................................................................................259 5.6.9 系统监控平台功能.......................................................................................................260 5.7 平台性能 ............................................................................................................................268 6
5.7.1 集群切换.......................................................................................................................268 5.7.2 节点切换.......................................................................................................................270 5.7.3 性能调优.......................................................................................................................271 5.7.4 并行化高性能计算.......................................................................................................276 5.7.5 计算性能线性扩展.......................................................................................................279 5.8 5.9 平台扩展性 ........................................................................................................................280 可靠性和可用性 ................................................................................................................282 5.9.1 单点故障消除...............................................................................................................282 5.9.2 容灾备份优化...............................................................................................................284 5.9.3 系统容错性...................................................................................................................288 5.10 开放性和兼容性 ................................................................................................................290 5.10.1 高度支持开源.......................................................................................................... 293 5.10.2 操作系统支持以及软件环境配置.......................................................................... 305 5.10.3 兼容性与集成能力.................................................................................................. 306 5.11 安全性................................................................................................................................307 5.11.1 身份鉴别.................................................................................................................. 308 5.11.2 访问控制.................................................................................................................. 308 5.11.3 安全通讯.................................................................................................................. 314 5.12 核心产品优势....................................................................................................................314 5.12.1 高速运算、统计分析和精确查询.......................................................................... 314 5.12.2 有效的资源利用...................................................................................................... 316 5.12.3 高并发、低延迟性能优化...................................................................................... 317 7
5.12.4 计算资源有效管控.................................................................................................. 318 5.12.5 API设计和开发工具支持.......................................................................................319 5.12.6 友好的运维监控界面.............................................................................................. 321 5.12.7 扩容、备份、恢复机制.......................................................................................... 325 5.12.8 集群自动负载均衡.................................................................................................. 327 5.12.9 计算能力扩展.......................................................................................................... 327 5.13 自主研发技术优势 ............................................................................................................327 5.13.1 高稳定、高效的计算引擎Inceptor..................................................................... 328 5.13.2 完整的SQL编译引擎............................................................................................ 329 5.13.3 高性能的SQL分析引擎........................................................................................ 329 5.13.4 SQL统计分析能力................................................................................................. 330 5.13.5 完整的CURD功能.................................................................................................331 5.13.6 Hyperbase高效的检索能力.................................................................................332 5.13.7 基于Hyperbase和SQL引擎的高并发分布式事务.......................................... 334 5.13.8 Hyperbase非结构化数据的支持.........................................................................335 5.13.9 机器学习与数据挖掘.............................................................................................. 335 5.13.10 TranswarpStream................................................................................................ 339 5.13.11 内存/SSD/磁盘混合存储.......................................................................................341 5.13.12 MR/Spark/流处理统一平台................................................................................. 343 5.13.13 多租户支持能力...................................................................................................... 344 5.13.14 多租户安全功能...................................................................................................... 345 5.13.15 标准JDBC与ODBC接口.....................................................................................345 8
分享到:
收藏