大纲
强化学习简介
RLR 中的挑战
增强可行性的方法
机器人中的强化学习技术
葛维
2017 年 5 月 8 日
.
.
机器人中的强化学习技术
.
.
.
葛维
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
强化学习简介
RLR 中的挑战
增强可行性的方法
大纲
强化学习简介
RLR 中的挑战
增强可行性的方法
葛维
.
.
机器人中的强化学习技术
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
大纲
强化学习简介
RLR 中的挑战
增强可行性的方法
强化学习与机器学习
图: 交互序列的复杂度以及奖励结构的复杂度
.
.
机器人中的强化学习技术
.
.
.
葛维
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
大纲
强化学习简介
RLR 中的挑战
增强可行性的方法
强化学习与最优控制
▶ 相同点:从问题上来讲,都是要去寻找一个最优策略(通常又
被称作控制器或控制策略),从而优化一个目标函数(比如累
积代价或奖励),并且,这两者都是依赖于状态集,动作集以
及对象模型。
.
.
机器人中的强化学习技术
.
.
.
葛维
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
大纲
强化学习简介
RLR 中的挑战
增强可行性的方法
强化学习与最优控制
▶ 相同点:从问题上来讲,都是要去寻找一个最优策略(通常又
被称作控制器或控制策略),从而优化一个目标函数(比如累
积代价或奖励),并且,这两者都是依赖于状态集,动作集以
及对象模型。
▶ 不同点:我们知道,最优控制是需要模型的完整知识的。但是
对于强化学习而言,有 model-free 和 model-based,并不一定
需要依赖于模型的完整知识。强化学习中经常使用经典的最优
控制技术来解决问题,比如 LQR 问题和 DDP 算法。
.
.
机器人中的强化学习技术
.
.
.
葛维
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
大纲
强化学习简介
RLR 中的挑战
增强可行性的方法
强化学习与机器人学
与一般强化学习问题的不同点:
▶ 状态集和动作集的高维度;
葛维
.
.
机器人中的强化学习技术
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
大纲
强化学习简介
RLR 中的挑战
增强可行性的方法
强化学习与机器人学
与一般强化学习问题的不同点:
▶ 状态集和动作集的高维度;
▶ 状态部分观测且通常带有噪声;
.
.
机器人中的强化学习技术
.
.
.
葛维
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
大纲
强化学习简介
RLR 中的挑战
增强可行性的方法
强化学习与机器人学
与一般强化学习问题的不同点:
▶ 状态集和动作集的高维度;
▶ 状态部分观测且通常带有噪声;
▶ 实验复杂、代价昂贵并且难以复现。
.
.
机器人中的强化学习技术
.
.
.
葛维
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.