logo资料库

DRQN和DARQN详解.pptx

第1页 / 共25页
第2页 / 共25页
第3页 / 共25页
第4页 / 共25页
第5页 / 共25页
第6页 / 共25页
第7页 / 共25页
第8页 / 共25页
资料共25页,剩余部分请下载后查看
DQN论文讲解:系列之4 深度循环Q网络 Deep Recurrent Q-Learning for Partially Observable MDPs 1
1 论文提出的问题(1) DQN主要有两个缺点: 1.记忆限制:DQN不能解决需要记住更多帧数的游戏( 这样的游戏不具备马尔可夫性质,而是POMDP问题) 2.每一次决策都需要完整的游戏画面。(但事实上只 是画面,信息是不完全的) 2
2 POMDP (Partially Observable Markov Decision Process)(1) 真实世界中的任务由于特征化的是不完整的带噪声 的状态,因此会导致部分可观测性质,这样Agent 就不能直接观察到状态。因此实际上许多Atari 2600游戏都是POMDP问题,比如在Pong中,你只 能通过屏幕知道位置信息,但是不能获取速度信息 。 DQN的缺陷使它不能适用于POMDP问题 3
2 2 POMDP (Partially Observable Markov Decision Process)(2) 强化学习通常描述为4元组 ,而POMDP可以 描述为一个6元组 ,Agent接收的不是状态 而是观察 。 为观察 的集合。 ,( RPAS , ) O  o O(s) ~o s , , , ,( RPAS  , , ) 4
3 DRQN (Deep Recurrent Q-Learning) (1) 5
3 DRQN (Deep Recurrent Q-Learning) (2) DRQN网络结构 6
3 DRQN (Deep Recurrent Q-Learning) (3) 两种更新方式: 自举序列更新:从经验池随机抽取情节,并且 从情节开始进行更新直到情节结束。 自举随机更新:从经验池随机抽取情节,并且 随机从情节某步开始,只进行一定的迭代时间 步长(例如只向后一步)。 在这篇论文中使用的自举随机更新,因为更加简单一 点。而且作者也认为这些结果也可以扩展到自举序列 更新上。 7
4 实验 (1) 闪烁乒乒球游戏(Flickering Pong ) 每个时间步,对于Pong,有0.5的概率屏 幕是完全模糊的,这使得Pong变为了一 个POMDP问题。 Pong-V0 8
分享到:
收藏