集团大数据平台
整体方案建议书
1
目 录
1 项目概述..................................................................................................................................14
1.1
建设背景 ..............................................................................................................................14
1.1.1 集团已有基础.................................................................................................................14
1.1.2 痛点及需提升的能力.....................................................................................................14
1.1.3 大数据趋势.....................................................................................................................15
1.2
建设目标 ..............................................................................................................................15
1.2.1 总体目标.........................................................................................................................15
1.2.2 分阶段建设目标.............................................................................................................16
1.3
与相关系统的关系 ..............................................................................................................16
1.3.1 数据分析综合服务平台.................................................................................................16
1.3.2 量收系统.........................................................................................................................17
1.3.3 金融大数据平台.............................................................................................................18
1.3.4 各生产系统.....................................................................................................................18
1.3.5 CRM................................................................................................................................18
1.4
公司介绍和优势特点..........................................................................................................18
1.4.1 IDEADATA..................................................................................................................... 18
1.4.2 TRANSWARP................................................................................................................20
1.4.3 我们的优势.....................................................................................................................21
2 业务需求分析.......................................................................................................................... 24
2.1
2.2
总体需求 ..............................................................................................................................24
数据管理 ..............................................................................................................................25
2
2.2.1 数据采集.........................................................................................................................26
2.2.2 数据交换.........................................................................................................................26
2.2.3 数据存储与管理.............................................................................................................26
2.2.4 数据加工清洗.................................................................................................................27
2.2.5 数据查询计算.................................................................................................................27
2.3
2.4
2.5
2.6
数据管控 ..............................................................................................................................28
数据分析与挖掘 ..................................................................................................................29
数据展现 ..............................................................................................................................29
量收系统功能迁移 ..............................................................................................................30
3 系统架构设计.......................................................................................................................... 31
3.1
3.2
3.3
总体设计目标......................................................................................................................31
总体设计原则......................................................................................................................31
案例分析建议......................................................................................................................32
3.3.1 中国联通大数据平台.....................................................................................................32
3.3.2 恒丰银行大数据平台.....................................................................................................39
3.3.3 华通CDN运营商海量日志采集分析系统..................................................................51
3.3.4 案例总结.........................................................................................................................56
3.4
系统总体架构设计 ..............................................................................................................57
3.4.1 总体技术框架.................................................................................................................57
3.4.2 系统总体逻辑结构.........................................................................................................60
3.4.3 平台组件关系.................................................................................................................62
3.4.4 系统接口设计.................................................................................................................67
3
3.4.5 系统网络结构.................................................................................................................71
4 系统功能设计.......................................................................................................................... 73
4.1
4.2
概述......................................................................................................................................73
平台管理功能......................................................................................................................73
4.2.1 多应用管理.....................................................................................................................73
4.2.2 多租户管理.....................................................................................................................77
4.2.3 统一运维监控.................................................................................................................78
4.2.4 作业调度管理.................................................................................................................97
4.3
数据管理 ..............................................................................................................................99
4.3.1 数据管理框架.................................................................................................................99
4.3.2 数据采集.......................................................................................................................101
4.3.3 数据交换.......................................................................................................................104
4.3.4 数据存储与管理...........................................................................................................105
4.3.5 数据加工清洗...............................................................................................................123
4.3.6 数据计算.......................................................................................................................124
4.3.7 数据查询.......................................................................................................................139
4.4
数据管控 ............................................................................................................................158
4.4.1 主数据管理...................................................................................................................158
4.4.2 元数据管理技术...........................................................................................................160
4.4.3 数据质量.......................................................................................................................163
4.5
4.6
数据 ETL............................................................................................................................ 169
数据分析与挖掘 ................................................................................................................172
4
4.6.1 数据分析流程...............................................................................................................174
4.6.2 R语言开发环境与接口............................................................................................... 175
4.6.3 并行化R算法支持...................................................................................................... 175
4.6.4 可视化R软件包.......................................................................................................... 178
4.6.5 编程语言支持...............................................................................................................180
4.6.6 自然语言处理和文本挖掘...........................................................................................181
4.6.7 实时分析.......................................................................................................................181
4.6.8 分析管理.......................................................................................................................182
4.6.9 分析支持.......................................................................................................................186
4.6.10 指标维护.................................................................................................................. 186
4.6.11 分析流程固化.......................................................................................................... 187
4.6.12 分析结果发布.......................................................................................................... 187
4.6.13 环境支持.................................................................................................................. 187
4.7
数据展现 ............................................................................................................................188
4.7.1 交互式报表...................................................................................................................190
4.7.2 仪表盘...........................................................................................................................195
4.7.3 即席查询.......................................................................................................................196
4.7.4 内存分析.......................................................................................................................197
4.7.5 移动分析.......................................................................................................................198
4.7.6 电子地图支持...............................................................................................................198
5 技术要求实现........................................................................................................................ 200
5.1
产品架构 ............................................................................................................................200
5
5.1.1 基础构建平台...............................................................................................................203
5.1.2 大数据平台组件功能介绍...........................................................................................204
5.1.3 系统分布式架构...........................................................................................................242
5.2
运行环境支持....................................................................................................................244
5.2.1 系统操作支持以及环境配置.......................................................................................244
5.2.2 与第三方软件平台的兼容说明...................................................................................245
5.3
客户端支持 ........................................................................................................................246
5.3.1 客户端支持...................................................................................................................246
5.3.2 移动端支持...................................................................................................................246
5.4
5.5
5.6
数据支持 ............................................................................................................................246
集成实现 ............................................................................................................................248
运维实现 ............................................................................................................................250
5.6.1 运维目标.......................................................................................................................250
5.6.2 运维服务内容...............................................................................................................251
5.6.3 运维服务流程...............................................................................................................253
5.6.4 运维服务制度规范.......................................................................................................255
5.6.5 应急服务响应措施.......................................................................................................256
5.6.6 平台监控兼容...............................................................................................................256
5.6.7 资源管理.......................................................................................................................257
5.6.8 系统升级.......................................................................................................................259
5.6.9 系统监控平台功能.......................................................................................................260
5.7
平台性能 ............................................................................................................................268
6
5.7.1 集群切换.......................................................................................................................268
5.7.2 节点切换.......................................................................................................................270
5.7.3 性能调优.......................................................................................................................271
5.7.4 并行化高性能计算.......................................................................................................276
5.7.5 计算性能线性扩展.......................................................................................................279
5.8
5.9
平台扩展性 ........................................................................................................................280
可靠性和可用性 ................................................................................................................282
5.9.1 单点故障消除...............................................................................................................282
5.9.2 容灾备份优化...............................................................................................................284
5.9.3 系统容错性...................................................................................................................288
5.10 开放性和兼容性 ................................................................................................................290
5.10.1 高度支持开源.......................................................................................................... 293
5.10.2 操作系统支持以及软件环境配置.......................................................................... 305
5.10.3 兼容性与集成能力.................................................................................................. 306
5.11 安全性................................................................................................................................307
5.11.1 身份鉴别.................................................................................................................. 308
5.11.2 访问控制.................................................................................................................. 308
5.11.3 安全通讯.................................................................................................................. 314
5.12 核心产品优势....................................................................................................................314
5.12.1 高速运算、统计分析和精确查询.......................................................................... 314
5.12.2 有效的资源利用...................................................................................................... 316
5.12.3 高并发、低延迟性能优化...................................................................................... 317
7
5.12.4 计算资源有效管控.................................................................................................. 318
5.12.5 API设计和开发工具支持.......................................................................................319
5.12.6 友好的运维监控界面.............................................................................................. 321
5.12.7 扩容、备份、恢复机制.......................................................................................... 325
5.12.8 集群自动负载均衡.................................................................................................. 327
5.12.9 计算能力扩展.......................................................................................................... 327
5.13 自主研发技术优势 ............................................................................................................327
5.13.1 高稳定、高效的计算引擎Inceptor..................................................................... 328
5.13.2 完整的SQL编译引擎............................................................................................ 329
5.13.3 高性能的SQL分析引擎........................................................................................ 329
5.13.4 SQL统计分析能力................................................................................................. 330
5.13.5 完整的CURD功能.................................................................................................331
5.13.6 Hyperbase高效的检索能力.................................................................................332
5.13.7 基于Hyperbase和SQL引擎的高并发分布式事务.......................................... 334
5.13.8 Hyperbase非结构化数据的支持.........................................................................335
5.13.9 机器学习与数据挖掘.............................................................................................. 335
5.13.10 TranswarpStream................................................................................................ 339
5.13.11 内存/SSD/磁盘混合存储.......................................................................................341
5.13.12 MR/Spark/流处理统一平台................................................................................. 343
5.13.13 多租户支持能力...................................................................................................... 344
5.13.14 多租户安全功能...................................................................................................... 345
5.13.15 标准JDBC与ODBC接口.....................................................................................345
8