logo资料库

强化学习课件.pdf

第1页 / 共43页
第2页 / 共43页
第3页 / 共43页
第4页 / 共43页
第5页 / 共43页
第6页 / 共43页
第7页 / 共43页
第8页 / 共43页
资料共43页,剩余部分请下载后查看
第七章 强化学习基础与人工智能初步 李剑锋 | 2018/01/22-24
Deep Reinforcement Learning 强化学习可能是 General Artificial Intelligence 未来实现通用人工智能的 主要理论框架
强化学习相关参考资料 01 02 03 网络资源 https://www.intelnervana.com/demystifying-deep-reinforcement-learning/ http://artint.info/html/ArtInt_265.html 参考文献 Playing Atari with Deep Reinforcement Learning 2013: arXiv:1312.5602v1 Continuous control with deep reinforcement learning 2016: arXiv:1509.02971v5 Human-level control through deep reinforcement learning 2015:Nature 14236 Mastering the game of Go without human knowledge 2017: Nature 24270 视频及网上课程 http://videolectures.net/rldm2015_silver_reinforcement_learning/ http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html http://rll.berkeley.edu/deeprlcourse/
目录 contents 01 02 03 04 强化学习的基本问题 经典Q学习理论 深度Q学习理论 程序讲解与训练
PART 01 强化学习的基本问题 Problems of Learning
强化学习的基本问题 https://www.technologyreview.com/s/603029/a-3-d-world-for-smarter-ai-agents/ 01 02 03 04 State (s) 当前状态(图像、声音、向量等) Reward (r) 奖赏与激励 Action (a) 动作 (向前,向后,向左,向右) Value Function (Q) 评价函数 Q (s, a)
强化学习的基本问题 Supervised Learning Dense Label Reinforcement Learning Sparse Label Time-delayed UnSupervised Learning NO Label Label ( State_i, Action_k) = { good, bad} 监督还是非监督?是个问题
强化学习的基本问题 AI需要充分利用(exploit)已有知识去获得奖励,但它也必须 探索(explore)一些更佳的动作选项以便获得更好的奖赏。 两难:只坐享其成 (exploit)或只冒险 探索(explore)都可能导致任务失败 ? 两大问题
分享到:
收藏