盘古-大数据文件系统
姚文辉
阿里巴巴高级技术专家
CNCC2019
目录
阿里大数据
盘古存储系统
挑战
案例剖析
发展方向
CNCC2019
阿里大数据
CNCC2019
大数据应用
场景
输
入
输
出
ETL
ECS
AI-DB
RDS
应
用
集
成
CNCC2019
大数据系统
规模
• EB级数据量
• 千亿文件数
• 几十万台物理节点
• 单任务PB级别
性能(天)
• 千万任务
• 百PB数据量
数
据
实
时
/
批
量
采
集
数据开发工具
计算模型
框架接入
任务编排
计算调度
数据存储
硬件/操作系统
安
全
隔
离
运
维
CNCC2019
盘
古
存
储
系
统
CNCC2019
盘古存储平台
Alibaba Cloud Service
Compute
MaxCompute
RealTimeCompute
EMR
…
OSS
NAS
Storage
SLS
HDFS
Virtualization
Docker-Volume
EBS
OTS
…
Pangu SDK
(Append-Only, Intelligent)
Pangu Meta
(Reliable, Scalable, Flexible)
Pangu Data
(Reliable, High-Performance, HW/SW Codesign)
Pangu Controller
(Automatically, Fool-Proofing)
CNCC2019
进化
稳定
• 高可靠
• 高可用
规模
顺势而为
在线海量文件
在线大数据文件
• 支持20+平台型产品
• 几十万台物理存储节点
离线大数据文件
性能
• 单组元数据15万 OPS
•
ESSD 单云盘100万 IOPS
离线大文件
进化
淘宝离线 MaxCompute 公共云
专有云
随需而变
CNCC2019