第七章
强化学习基础与人工智能初步
李剑锋 | 2018/01/22-24
Deep
Reinforcement Learning
强化学习可能是
General
Artificial Intelligence
未来实现通用人工智能的
主要理论框架
强化学习相关参考资料
01
02
03
网络资源
https://www.intelnervana.com/demystifying-deep-reinforcement-learning/
http://artint.info/html/ArtInt_265.html
参考文献
Playing Atari with Deep Reinforcement Learning 2013: arXiv:1312.5602v1
Continuous control with deep reinforcement learning 2016: arXiv:1509.02971v5
Human-level control through deep reinforcement learning 2015:Nature 14236
Mastering the game of Go without human knowledge 2017: Nature 24270
视频及网上课程
http://videolectures.net/rldm2015_silver_reinforcement_learning/
http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html
http://rll.berkeley.edu/deeprlcourse/
目录 contents
01
02
03
04
强化学习的基本问题
经典Q学习理论
深度Q学习理论
程序讲解与训练
PART 01
强化学习的基本问题
Problems of Learning
强化学习的基本问题
https://www.technologyreview.com/s/603029/a-3-d-world-for-smarter-ai-agents/
01
02
03
04
State (s)
当前状态(图像、声音、向量等)
Reward (r)
奖赏与激励
Action (a)
动作 (向前,向后,向左,向右)
Value Function (Q)
评价函数 Q (s, a)
强化学习的基本问题
Supervised
Learning
Dense
Label
Reinforcement
Learning
Sparse
Label
Time-delayed
UnSupervised
Learning
NO
Label
Label ( State_i, Action_k) = { good, bad}
监督还是非监督?是个问题
强化学习的基本问题
AI需要充分利用(exploit)已有知识去获得奖励,但它也必须
探索(explore)一些更佳的动作选项以便获得更好的奖赏。
两难:只坐享其成 (exploit)或只冒险
探索(explore)都可能导致任务失败
?
两大问题