硕士学位论文
基于深度强化学习的无人驾驶
智能决策控制研究
INTELLIGENT CONTROL OF AUTONOMOUS
DRIVING BASED ON DEEP REINFORCEMENT
LEARNING
左思翔
哈尔滨工业大学
2018 年 1 月
学校代码:10213
密 级:公 开
国内图书分类号:TP242.6
国际图书分类号:621
工学硕士学位论文
基于深度强化学习的无人驾驶
智能决策控制研究
硕 士 研 究 生 : 左思翔
导 师 : 朱晓蕊教授
申 请 学 位 : 工学硕士
学
科 : 控制科学与工程
所 在 单 位 : 深圳研究生院
答 辩 日 期 : 2017 年 12 月
授予学位单位 : 哈尔滨工业大学
Classified Index: TP242
U.D.C: 621
A dissertation submitted in partial fulfillment of
the requirements for the academic degree of
Master of Engineering
INTELLIGENT CONTROL OF AUTONOMOUS
DRIVING BASED ON DEEP REINFORCEMENT
LEARNING
Zuo Sixiang
Prof. Zhu Xiaorui
Control Science and Engineering
Shenzhen Graduate School
December, 2017
Candidate:
Supervisor:
Academic Degree Applied for: Master of Engineering
Speciality:
Affiliation:
Date of Defence:
Degree-Conferring-Institution: Harbin Institute of Technology
摘 要
摘 要
随着人工智能技术的发展,越来越多的智能应用正在潜移默化的改变我们
的生活。无人驾驶车辆是未来交通的发展方向,决策控制问题则是无人驾驶技
术发展需要面对的重要问题。因此,将人工智能技术与无人驾驶决策领域相结
合,有着十分广阔的应用前景和重要的研究意义。示教学习和强化学习都是训
练智能体学习如何“做决策”的方法,它们有着各自的优缺点。本文选择并分
析了两种方法的代表性算法:数据聚集(Dataset Aggregation, DAgger)和深度
确定性策略梯度算法(Deep Deterministic Policy Gradient, DDPG),发现 DAgger
算法虽然策略收敛较快,但示教策略限制了智能体的学习上限;而 DDPG 算法
虽然不需要定义示教策略,但存在奖励值函数难以定义、训练效果波动较大等
缺陷。因此,本文针对无人驾驶决策控制问题,提出将示教学习与强化学习相
结合的解决方案,尝试吸取示教学习算法的优点,对强化学习算法训练效果进
行提升。
基 于 DDPG 算 法 , 本 文 提 出 了 融 合 示 教 的 DDPG 算 法 ( DDPG with
Demonstration, DDPGwD)。算法的基本框架基于演员-评论家网络结构,本文重
新设计了评论家网络的训练损失函数,在原有的时序差分损失基础上增加了对
于示教数据的监督损失,采用示教动作与当前策略输出动作的动作-价值函数(Q
值)均方差的形式,并增加边界值以保证监督效果。本文从理论上对新框架下
的网络参数更新公式进行了推导。
针对 DDPG 训练波动较大的问题,本文提出了一种合成经验回放思路,尝
试在每个训练回合中都保证采样一定比例的“表现好”的转移过程,试图保证
训练数据的多样性,提升网络训练效果。对于初始训练阶段,本文尝试存储每
回合中最优的转移过程代替“表现好”的转移过程,以解决“表现好”数据量
过少的问题。结合示教监督思路,本文设计了 DDPGwD 算法的总体训练流程。
本文使用了人工智能领域常用的智能驾驶仿真环境,开源赛车模拟器(The
Open Racing Car Simulator, TORCS)对算法进行了仿真验证,证明了上述算法
在自动驾驶决策控制领域中的有效性。
关键词:无人驾驶智能决策;深度确定性策略梯度算法;融合示教的强化学习;
示教学习;强化学习
- I -
Abstract
Abstract
As the development of Artificial Intelligence (AI), more and more intelligent
devices are potentially changing our lives. Autonomous driving cars are very
promising for the future transportation, and the decision making and controlling for
autonomous driving cars are very important problems. Imitation learning and
reinforcement learning (RL) are both algorithms which can teach the agent learn
how to make decisions and generate appropriate policies. In this paper, we select
two typical algorithms, Dataset Aggregation (DAgger) and Deep Deterministic
Policy Gradient (DDPG), and analyze their strengths and weaknesses. We find that
although DAgger can find policies rapidly, the policies’ quality is seriously limited
by the demonstrator’s policy. While for DDPG which doesn’t need a demonstrator,
the training is greatly depend on the definition of reward functions. Hence, in this
paper, we try to implement RL methods to solve the above question, and propose a
new algorithm of RL, which can improve the training quality by learning form
demonstrations.
In this paper, we introduce supervision of demonstration to the original DDPG,
and propose a new RL method which we refer to DDPG with Demonstration
(DDPGwD). The algorithm is based on actor-critic framework, and we design a new
cost function for the training of critic network. The newly designed cost function is
the weighted sum of TD-loss and the mean squared error of Q values generated by
demonstrator’s action and the current policy’s action. A margin value is used to
improve the effectiveness of supervision. We describe the parameter updating
function of the critic network under the newly designed cost function in detail.
We propose an integrated experience replay method to reduce the fluctuation
when training the original DDPG. The thought is to always include a part of
transitions with good behavior when sampling training data. For the beginning
episodes which usually don’t have enough good transitions, we instead include the
best transition in each episode. Combined with the supervision cost function
proposed above, we describe the training process of DDPGwD algorithm.
In this paper, we select a common used simulator named TORCS to verify the
effectiveness of the proposed algorithm, and the simulation results validate the
practicability of DDPGwD in the area of autunomous-driving.
Keywords: intelligent decision making for autonomous driving, DDPG, DDPG with
demonstration, imitation learning, reinforcement learning
- II -
哈尔滨工业大学工学硕士学位论文
目 录
摘 要 .......................................................................................................................... I
ABSTRACT ................................................................................................................ II
第 1 章 绪 论 ......................................................................................................... 1
1.1 课题背景及研究的目的和意义 ................................................................. 1
1.2 国内外研究现状 ........................................................................................ 2
1.2.1 基于规则限定的决策控制 ........................................................................ 2
1.2.2 基于深度学习的决策控制 ........................................................................ 3
1.2.3 基于示教学习和强化学习的决策控制 .................................................... 3
1.3 本文的主要研究内容 ................................................................................ 6
第 2 章 无人驾驶的决策控制问题与解决方案 ..................................................... 8
2.1 无人驾驶的智能决策控制 ......................................................................... 8
2.2 示教学习 ................................................................................................... 9
2.2.1 示教学习基本原理.................................................................................... 9
2.2.2 数据聚集算法分析.................................................................................. 10
2.3 强化学习 ..................................................................................................11
2.3.1 强化学习基本原理.................................................................................. 12
2.3.2 深度确定性策略梯度算法分析 .............................................................. 14
2.4 本章小结 ................................................................................................. 15
第 3 章 DDPGWD 算法框架 ................................................................................. 16
3.1 演员-评论家模式 .................................................................................... 16
3.2 目标网络和经验回放 .............................................................................. 18
3.3 本章小结 ................................................................................................. 20
第 4 章 示教监督误差设计与参数更新 ............................................................... 22
4.1 示教监督误差的设计 .............................................................................. 22
4.2 网络的训练与参数更新........................................................................... 24
4.3 本章小结 ................................................................................................. 27
第 5 章 仿真与结果分析 ....................................................................................... 28
5.1 仿真平台介绍 ......................................................................................... 28
5.1.1 仿真环境 ................................................................................................. 28
5.1.2 深度学习框架.......................................................................................... 30
- III -
哈尔滨工业大学工学硕士学位论文
5.2 算法平台搭建 ......................................................................................... 30
5.2.1 DDPG 算法与 DDPGwD 算法 ................................................................ 30
5.2.2 DAgger 算法 ............................................................................................. 33
5.3 仿真实验效果 ......................................................................................... 33
5.3.1 策略学习速度.......................................................................................... 35
5.3.2 弱化奖励值函数...................................................................................... 37
5.3.3 降低训练波动.......................................................................................... 38
5.3.4 最终策略效果.......................................................................................... 41
5.4 本章小结 ................................................................................................. 44
结 论 ....................................................................................................................... 45
参考文献 ................................................................................................................... 47
攻读硕士学位期间发表的论文及其他成果 ........................................................... 51
哈尔滨工业大学学位论文原创性声明和使用权限 ............................................... 52
致 谢 ....................................................................................................................... 53
- IV -
哈尔滨工业大学工学硕士学位论文
第 1 章 绪 论
1.1 课题背景及研究的目的和意义
随着自动驾驶技术的不断突破,无人驾驶车辆已经向实用化迈进,在未来
数年内将对提高道路安全、促进交通管理和改善城市环保等产生颠覆性影响,
成为汽车交通领域的一项革命。据统计,在所有车辆肇事情况中,九成以上的
车祸是由驾驶员的失误造成的。因此,无人驾驶功能的出现,将有可能极大程
度上降低这部分交通肇事几率[1,2]。我国对于无人驾驶的研究起步较早[3,4],但
是随着对自动驾驶应变能力要求的不断提高,新一代的无人驾驶车辆既需要对
复杂的道路场景进行识别与分析,又需要克服不同环境下的传感器噪声等问
题,同时还需要实时应对各种突发状况,这对自动驾驶人工智能的快速学习能
力、泛化能力提出了更高的要求,成为急需攻克的难点问题。当前,制约无人
驾驶技术应用的一个关键问题是如何保证车辆在不可控复杂环境中长时间安
全自主行驶。在不可控复杂交通环境中,道路路况复杂(包括道路标志缺失遮
挡、表面破损、动态行人及车辆共存等),道路周围环境多变(包括天气光照
和气候多变、部分片区城市改造或重新规划等)。这便要求无人驾驶车辆定位
导航精度达到分米级(甚至厘米级),同时能适应环境变化,具有长时间的稳
定性和鲁棒性。同时,在不可控环境中要求无人驾驶车辆具有更加智能的决策
控制能力,能够综合利用感知信息,在紧急突发情况下做出安全合理的决策控
制。在车辆驾驶控制方面,有经验的人类可以很好的完成驾驶任务。而以示教
学习(Imitation Learning)为代表的一系列通过人类示教来引导机器进行学习
的智能方法,已经在机器人与智能控制领域取得了很大的成就。但是,如何将
人类的经验用于汽车自动驾驶人工智能的训练,尤其是在示教样本较少的情况
下,如何应付不可控复杂交通场景、如何提高泛化能力,都是无人驾驶研究的
难点。
无人驾驶的决策与控制模块是决定无人驾驶汽车安全性、稳定性的关键技
术[5]。随着无人驾驶汽车的路测日益频繁以及自动驾驶功能的广泛普及,越来
越多无人驾驶引发的事故见诸报端。图 1-1 展示了谷歌无人车和特斯拉自动驾
驶模式下发生的事故。这些事故的主要原因是面对不可控的突发交通状况时,
无人车无法做出最佳的实时决策与控制。因此,不可控复杂环境中的无人驾驶
的决策和控制,逐渐成为制约无人驾驶技术发展的关键问题。
- 1 -