DRQN和DARQN详解.pptx

发布时间：2022-06-19 发布人：admin 分类：说明书资料大小：1.85M 资料格式：pptx 举报版权申诉

0f2aa720-d547-427b-8945-3fc06fbd8db3.pptx.pdf-第1页.png

第1页 / 共25页

0f2aa720-d547-427b-8945-3fc06fbd8db3.pptx.pdf-第2页.png

第2页 / 共25页

0f2aa720-d547-427b-8945-3fc06fbd8db3.pptx.pdf-第3页.png

第3页 / 共25页

0f2aa720-d547-427b-8945-3fc06fbd8db3.pptx.pdf-第4页.png

第4页 / 共25页

0f2aa720-d547-427b-8945-3fc06fbd8db3.pptx.pdf-第5页.png

第5页 / 共25页

0f2aa720-d547-427b-8945-3fc06fbd8db3.pptx.pdf-第6页.png

第6页 / 共25页

0f2aa720-d547-427b-8945-3fc06fbd8db3.pptx.pdf-第7页.png

第7页 / 共25页

0f2aa720-d547-427b-8945-3fc06fbd8db3.pptx.pdf-第8页.png

第8页 / 共25页

文本预览

DQN论文讲解：系列之4 深度循环Q网络 Deep Recurrent Q-Learning for Partially Observable MDPs 1

1 论文提出的问题（1） DQN主要有两个缺点： 1.记忆限制：DQN不能解决需要记住更多帧数的游戏（这样的游戏不具备马尔可夫性质，而是POMDP问题） 2.每一次决策都需要完整的游戏画面。（但事实上只是画面，信息是不完全的） 2

2 POMDP （Partially Observable Markov Decision Process）（1）真实世界中的任务由于特征化的是不完整的带噪声的状态，因此会导致部分可观测性质，这样Agent 就不能直接观察到状态。因此实际上许多Atari 2600游戏都是POMDP问题，比如在Pong中，你只能通过屏幕知道位置信息，但是不能获取速度信息。 DQN的缺陷使它不能适用于POMDP问题 3

2 2 POMDP （Partially Observable Markov Decision Process）（2）强化学习通常描述为4元组，而POMDP可以描述为一个6元组，Agent接收的不是状态而是观察。为观察的集合。 ,( RPAS , ) O  o O(s) ~o s , , , ,( RPAS  , , ) 4

3 DRQN (Deep Recurrent Q-Learning) (1) 5

3 DRQN (Deep Recurrent Q-Learning) (2) DRQN网络结构 6

3 DRQN (Deep Recurrent Q-Learning) (3) 两种更新方式：自举序列更新：从经验池随机抽取情节，并且从情节开始进行更新直到情节结束。自举随机更新：从经验池随机抽取情节，并且随机从情节某步开始，只进行一定的迭代时间步长（例如只向后一步）。在这篇论文中使用的自举随机更新，因为更加简单一点。而且作者也认为这些结果也可以扩展到自举序列更新上。 7

4 实验 (1) 闪烁乒乒球游戏（Flickering Pong ）每个时间步，对于Pong，有0.5的概率屏幕是完全模糊的，这使得Pong变为了一个POMDP问题。 Pong-V0 8

分享到：

赞收藏

资料库

DRQN和DARQN详解.pptx

相关推荐

人工智能

热门标签

最新资料