DQN论文讲解:系列之4
深度循环Q网络
Deep Recurrent Q-Learning for Partially
Observable MDPs
1
1 论文提出的问题(1)
DQN主要有两个缺点:
1.记忆限制:DQN不能解决需要记住更多帧数的游戏(
这样的游戏不具备马尔可夫性质,而是POMDP问题)
2.每一次决策都需要完整的游戏画面。(但事实上只
是画面,信息是不完全的)
2
2 POMDP (Partially Observable Markov Decision Process)(1)
真实世界中的任务由于特征化的是不完整的带噪声
的状态,因此会导致部分可观测性质,这样Agent
就不能直接观察到状态。因此实际上许多Atari
2600游戏都是POMDP问题,比如在Pong中,你只
能通过屏幕知道位置信息,但是不能获取速度信息
。
DQN的缺陷使它不能适用于POMDP问题
3
2 2 POMDP (Partially Observable Markov Decision Process)(2)
强化学习通常描述为4元组 ,而POMDP可以
描述为一个6元组 ,Agent接收的不是状态
而是观察 。 为观察 的集合。
,(
RPAS
,
)
O
o
O(s)
~o
s
,
,
,
,(
RPAS
,
,
)
4
3 DRQN (Deep Recurrent Q-Learning) (1)
5
3 DRQN (Deep Recurrent Q-Learning) (2)
DRQN网络结构
6
3 DRQN (Deep Recurrent Q-Learning) (3)
两种更新方式:
自举序列更新:从经验池随机抽取情节,并且
从情节开始进行更新直到情节结束。
自举随机更新:从经验池随机抽取情节,并且
随机从情节某步开始,只进行一定的迭代时间
步长(例如只向后一步)。
在这篇论文中使用的自举随机更新,因为更加简单一
点。而且作者也认为这些结果也可以扩展到自举序列
更新上。
7
4 实验 (1)
闪烁乒乒球游戏(Flickering Pong )
每个时间步,对于Pong,有0.5的概率屏
幕是完全模糊的,这使得Pong变为了一
个POMDP问题。
Pong-V0
8