logo资料库

机器人中的强化学习技术.pdf

第1页 / 共76页
第2页 / 共76页
第3页 / 共76页
第4页 / 共76页
第5页 / 共76页
第6页 / 共76页
第7页 / 共76页
第8页 / 共76页
资料共76页,剩余部分请下载后查看
强化学习简介
RLR中的挑战
增强可行性的方法
大纲 强化学习简介 RLR 中的挑战 增强可行性的方法 机器人中的强化学习技术 葛维 2017 年 5 月 8 日 . . 机器人中的强化学习技术 . . . 葛维 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
强化学习简介 RLR 中的挑战 增强可行性的方法 大纲 强化学习简介 RLR 中的挑战 增强可行性的方法 葛维 . . 机器人中的强化学习技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
大纲 强化学习简介 RLR 中的挑战 增强可行性的方法 强化学习与机器学习 图: 交互序列的复杂度以及奖励结构的复杂度 . . 机器人中的强化学习技术 . . . 葛维 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
大纲 强化学习简介 RLR 中的挑战 增强可行性的方法 强化学习与最优控制 ▶ 相同点:从问题上来讲,都是要去寻找一个最优策略(通常又 被称作控制器或控制策略),从而优化一个目标函数(比如累 积代价或奖励),并且,这两者都是依赖于状态集,动作集以 及对象模型。 . . 机器人中的强化学习技术 . . . 葛维 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
大纲 强化学习简介 RLR 中的挑战 增强可行性的方法 强化学习与最优控制 ▶ 相同点:从问题上来讲,都是要去寻找一个最优策略(通常又 被称作控制器或控制策略),从而优化一个目标函数(比如累 积代价或奖励),并且,这两者都是依赖于状态集,动作集以 及对象模型。 ▶ 不同点:我们知道,最优控制是需要模型的完整知识的。但是 对于强化学习而言,有 model-free 和 model-based,并不一定 需要依赖于模型的完整知识。强化学习中经常使用经典的最优 控制技术来解决问题,比如 LQR 问题和 DDP 算法。 . . 机器人中的强化学习技术 . . . 葛维 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
大纲 强化学习简介 RLR 中的挑战 增强可行性的方法 强化学习与机器人学 与一般强化学习问题的不同点: ▶ 状态集和动作集的高维度; 葛维 . . 机器人中的强化学习技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
大纲 强化学习简介 RLR 中的挑战 增强可行性的方法 强化学习与机器人学 与一般强化学习问题的不同点: ▶ 状态集和动作集的高维度; ▶ 状态部分观测且通常带有噪声; . . 机器人中的强化学习技术 . . . 葛维 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
大纲 强化学习简介 RLR 中的挑战 增强可行性的方法 强化学习与机器人学 与一般强化学习问题的不同点: ▶ 状态集和动作集的高维度; ▶ 状态部分观测且通常带有噪声; ▶ 实验复杂、代价昂贵并且难以复现。 . . 机器人中的强化学习技术 . . . 葛维 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
分享到:
收藏