深度学习平台服务及其关键技术
白小龙
Cloud BU/EI服务产品部
主要内容
深度学习平台服务
• 深度学习计算库
• 除了深度学习计算库,还需要什么
• 深度学习软件栈概览
• 端到端一站式深度学习平台
深度学习优化的思考
• 深度学习训练态的优化及发展方向
• 深度学习推理态的优化及发展方向
• 深度学习计算库
基于数据流图的计算过程:
计算流图表示、解析、分割
自动微分,支持后向传播
丰富的算子库,如卷积、全连接、池
化等
参数初始化,如Xavier, msra,
Gaussian等
丰富的优化器,如SGD、Adam、
Momentum等
…
Trainer
Evaluator
Preprocessing
Scripts
Session
Graph
Kernels
Session
Optimizer
CUDA
Tensor
cuDNN
Executor
Initializers
Rendezvous
Device
Serving
Distributed
Training
Data
• 深度学习计算库
蒙特利尔大学开源
theano,细粒度
API灵活,功能强
英特尔、浪潮、商
汤等自研基于MPI
的分布式Caffe
伯克利大学开源
Caffe,稳定易用
谷歌开源
TensorFlow
DMLC社区开源
MXNet
微软开源CNTK
TensorFlow支持
分布式训练、
RDMA等
亚马逊选定
MXNet,支持分
布式训练
CNTK支持分布式
训练、1bit-SGD
Facebook开源
Pytorch,支持分
布式,命令式编程
TensorFlow支持XLA、
Fold、Eager、TF lite
端侧平台
MXNet分离出
NNVM/TVM,支
持异构优化
微软、Facebook联合
推出ONNX模型统一
格式、Gluon命令和
符号混合编程接口
DeepLearning4J
开源
Preferred
Networks开源
Chainer
百度开源
PaddlePaddle
Yahoo!开源
TensorFlow on
Spark
百度、腾讯轻量化
开源端侧推理引擎
英伟达推出云/边推理引擎
和分布式训练库NCCL2
Intel开源nGraph
伯克利大学开源分布
式深度/强化学习训练
库Ray
Uber研究ES替代BP
做深度强化学习训练
?
2012年
2013年
2014年
2015年
2016年
2017年
2018年
• 不支持分布式训练
• 灵活性和易用性之间难以平衡
过去:第一代DL引擎
• 增强中间表示层,扩大对多硬件的支持
• 基本都同时支持命令式和符号式编程,简化开发和运行
• 基本都开始支持动态图,支持更多灵活模型高效执行
• 出现了专用的推理引擎,简化执行模型,优化运行效率
现在:第二代DL引擎
• 静态图和动态图的融合
• 基于演进策略算法及异构
负载的高性能、易用分布
式框架
未来:第三代DL引擎
• 除了深度学习计算库,还需要什么?
问题:训练太慢,怎么办?
解决方案:
1. 云端高性能、易用的分布式训练/验证框
架MoXing
2. 云端无尽的资源、强大的计算力
问题:不会开发深度学习模型,能直接用吗?
解决方案:云端模型库和模型市场
Deep Learning Software Stack
in Huawei Cloud
问题:模型推理怎么更高效?
解决方案:弹性伸缩、Serveless
问题:开发人员多了,怎么调度?
解决方案:云端调度,容器化编排管理
• 深度学习软件栈概览
Solution
面向垂直领域的解决方案
Marketplace (Apps, models, etc)
交易平台(应用和模型市场)
E2E Platform
Frameworks/Models/Tools
DL Computing Libraries
Cloud (Computing, Scheduler, Storage,
Networks, ...)
Hardware/Chips
端到端的深度学习开发平台(包含数据标注、业务
模型开发、训练、推理等)
高层库(如Keras等)、基础算法和模型,以及各
类工具包(模型压缩、数据处理等等)
深度学习计算库(如TensorFlow、MXNet、
Ray、TensorRT等)
计算、存储、网络、镜像、作业/资源调度、
十统一服务等
高性能服务器和计算板卡(如GPU等)
• 端到端一站式深度学习平台
• 端到端一站式深度学习平台
1. 搜集训练数据
• 按需使用、按需计费;
• 无需管理资源、无需运维;
• 即刻享用最新的GPU卡;
• 云端优化的分布式计算引擎,
加速训练
3. 上传新数据
5. 得到预测结果
Deep Learning Service
预测服务
4. 自动分布式训
练、调度等等
2. 上传训练数据
模型训练服务
开发调试代码
开发调试服务
上传私有镜像
容器镜像服务