logo资料库

自适应RBF网络Q学习控制.pdf

第1页 / 共4页
第2页 / 共4页
第3页 / 共4页
第4页 / 共4页
资料共4页,全文预览结束
2 2 2 2 第 25 卷 第 2 期 Vol. 25 No. 2   文章编号 : 1001 0920 (2010) 02 0303 04 控  制  与  决  策 an d Decision Cont rol  2010 年 2 月   Feb. 2010 自适应 RBF 网络 Q 学习控制 徐明亮 , 须文波 (江南大学 信息工程学院 , 江苏 无锡 214122) 动作对 ,输出为该 摘  要 : 利用 RBF 网络逼近连续空间的 Q 值函数 ,实现连续空间的 Q 学习. RBF 网络输入为状态 状态 动作对的 Q 值. 状态由系统的状态转移特性确定 , 动作由优化网络输出得到的贪婪动作与服从高斯分布的噪 声干扰动作两部分叠加而成. 利用 RNA 算法和梯度下降法自适应调整网络的结构和参数. 倒立摆平衡控制的实验 结果验证了该方法的有效性. 关键词 : RBF 网络 ; 自组织 ; Q 学习 ; 连续空间 ; 优化 中图分类号 : TP18     文献标识码 : A Q learning control based on self organizing RBF net work X U M i n g (School of E mail : xml1973 @126. com) li an g , X U W en Information Technology , Jiangnan University , Wuxi 214122 , China. Correspondent : XU Ming bo liang , Abstract : The radial basis f unction ( RBF) neural network is used to app roache the Q value f unction. The information learnt is generalized by learning agent in continuous state space and action space. The inp ut of RBF network is the pair value of the pair of state and action. The state is decided by the transfer of state and action , and the output is the Q characteristic of system. The act of the input is consisted of the greedy act , which can be calculated with the Q value optimization and noise act which has a normal distribution. The RNA algorithm and gradient decent algorithm are introduced to adjust the structure and parameters of network in a self organization way. The result s of simulation on the balancing control of a cart Key words : RBF network ; Self pole system show the effectiveness of the proposed Q organization ; Q learning ; Continuous space ; Optimization learning method. 1  引   言 强化学习通过学习主体以试错的方式直接与环 境进行交互 ,根据环境反馈的强化信号来调整自己 的行为. 这种学习不需要外界的监督指导信号 ,在对 系统模型一无所知的情况下 ,通过经验的积累也能 完成预定的任务. 因此 ,强化学习在系统决策 、自动 控制等领域得到广泛的应用[ 1 ] . 强化学习算法主要有 TD 算法[2 ] 和 Q 学习算 法[3 ] . Q 学习算法是一种增量式动态规划 ,通过直接 优化可迭代计算的状态 动作对的 Q 值函数 ,找到使 期望折扣报酬总和最大的策略 , 而非 TD 算法中的 状态值函数. Q 函数的实现方法主要是采用查表法. 对于小规模的离散状态和动作 ,查表法是可行的 ;对 于大规模的离散状态和动作空间 , 采用查表法将产 生维数灾难问题 ,即学习参数的个数随着状态和动 作的增长而呈指数增长. 对于连续的状态和动作空 间 ,通过量化也可利用查表法 ,但量化不当会严重影 响强化学习的性能. 对连续状态和动作究竟选择何 种量化方式和量化精度 ,还没有任何先验知识. 解决问题的思路是将具有学习和泛化能力的神 经网络引入强化学习 ,利用神经网络来逼近 Q 函数. 文献[4 ] 采用两个神经网络分别逼近两个离散动作 的 Q 值函数 ,网络输入为状态 ,每个网络对应于一个 离散动作的 Q 值. 但该方法在连续动作的情况下无 法使用 ,且当离散动作数较多时 , 网络数目过大 , 训 练收敛速度慢. 文献 [5 ,6 ] 利用模糊神经网络来逼 近 Q 值函数 ,网络输入为状态 ,每条规则对应于若干 相同的离散动作 ,通过离散动作的 Q 值竞争获得该 规则的输出动作 ,再根据每条规则的适应度对每条 规则的输出离散动作加权 , 并通过命令融合机制获 得作用于系统的连续动作. 显然 ,离散动作的选取对 03 24 ; 修回日期 : 2009 收稿日期 : 2009 01. 基金项目 : 国家自然科学基金项目 (60703106) . 作者简介 : 徐明亮 (1973 —) ,男 ,安徽宣城人 ,讲师 ,博士生 ,从事机器学习 、进化计算的研究 ; 须文波 (1946 —) ,男 , 06 江苏无锡人 ,教授 ,博士生导师 ,从事人工智能 、计算机控制技术等研究. © 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
403      控   制   与   决   策 第 25 卷 Q 学习的性能具有重要影响. 如何选取离散动作 ,也 缺乏先验知识和一般性的指导原则. 本文利用 RB F 网络逼近 Q 函数 ,结合 RNA 算 法使网络结构能在学习过程中自适应调整. 与上述 文献不同 , 本文的网络输入为连续的状态 动作对 , 输入状态由环境特性确定 , 输入动作通过优化网络 输出的 Q 值确定. 经典的倒立摆平衡控制验证了所 提出算法具有良好的性能. 2  RBF 网络 Q 学习网络结构 RB F 网络虽然规模较大 , 但由于具有局部逼近 和全局逼近能力以及收敛速度快等特点 , 在函数逼 近中得到广泛的应用. 利用 RB F 网络逼近 Q 值函数的网络结构如图 1 所示. 该网络为 3 层自组织结构. 图 1  基于 RBF 网络的 Q 学习网络结构 第 1 层为输入层 , 该层的每个神经元对应于一 个输入变量. 其中 :状态变量为 N 维列向量 S = ( s1 , s2 , …, sN ) ,动作变量为 a. 网络输入向量为 N + 1 维 , 记为 x = ( x1 , x2 , …, x P) , P = N + 1. 第 2 层为隐层. 该层的每个节点为 P 维高斯函 数 ,第 k 个 RB F 函数表示为 φk ( x) = exp ( ∑ P i = 1 ( x i - μik ) 2 2σ2 ik ) , k = 1 ,2 , …, K. (1) 其中 :μik 和σik 分别为第 k 个 RB F 函数的中心和宽 度 , x i 为输入向量的第 i 个分量 , K 为隐层节点数. 第 3 层为输出层. 该层只有一个节点 ,用于逼近 动作对值函数 Q ( S , a) . 第 k 个隐层节点与输 状态 出节点之间的连接权值为 w k ,网络输出为 Q ( s , a) = ∑ w kφk . K k = 1 (2) 在 Q 学习中 ,状态转移是由环境的状态转移函 数决定的. 状态 S t 所执行的动作 a t , 则根据 Q 值函 数按一定的策略给出. 作用于环境的动作 at 由两部 分组成 ,即 at = anet + aN . (3) 其中 : anet 是由网络推荐的贪婪动作 , 可由优化网络 输出的 Q 值得到 ,即 anet = arg max ( Q ( s1 , s2 , …, sN , a) ) ; (4) aN 是随机干扰动作 ,服从 N (0 ,σQ ( s , a) ) 分布 ,其宽 度由下式计算得到 : a σQ ( s , a) = 1 1 + exp (2 max Q ( s , a) ) . (5) anet 对应于已有知识的应用 ,可通过优化计算实 现. 常用的优化算法有遗传算法 、PSO 算法 、Q PSO 算法 、格点法等. aN 对应于未知知识的探索. 通过这 两部分的叠加作为网络输入动作 , 以解决强化学习 中探索和利用的两难问题. Q 值函数的学习采用 TD 算法. Q 学习的一步 TD 误差δTD 由下式计算得到 : δTD = rt+1 +γmax at+1 Q ( st+1 , at+1 ) - Q( S t , at) . (6) 其中 : rt+1 为状态由 S t 转移到 S t+1 时获得的奖赏 ,γ 为折扣因子. 3  RBF 网络 Q 值函数逼近 神经网络一般是根据样本的网络输出与目标输 出之间的误差来调整网络. 在强化学习中 ,没有直接 的样本可供网络学习 ,但通过与环境交互 ,可获得输 入状态 动作对及其 Q 值的 TD 误差. 以 Q 值的 TD 误差代替网络输出与目标输出之间的误差来调整网 络 ,也能实现 Q 值函数的逼近. 为加快学习速度 , 可 采用文献 [7 ] 的经验重放方法对网络进行训练. 经 验重放方法虽然需要较多的存储空间 , 但比合格迹 方法计算量小. RB F 网络进行函数逼近时 , 其性能与网络结构 有关 ,网络规模过大将导致学习速度慢 ,过小将导致 过拟合. 本文算法利用 RAN 算法进行结构学习 , 自 适应调整网络的结构 ,使得网络保持适当的规模. 3. 1  网络结构学习 RAN 算法能根据样本自动增加隐层节点. 结合 Q 学习的特点 ,增加新节点的准则为 TD 误差准则 和距离准则. 学习主体计算样本输入到最近基函数 中心的距离 d. 如果 d 大于阈值 d min 且 TD 误差大于 阈值 emin ,则增加一个节点. 新增节点所对应的基函 数中心为当前输入样本 ,即μnew = x t . 新增基函数的 宽度σnew =τmin ‖x t - μk ‖,其中τ为重叠系数. 新 增节点与输出节点连接权值为 TD 误差δTD . 按 d = decay 调整网络分辨率 , 其中 decay 为分辨率 d d 的衰减因子. 3. 2  参数学习 k 当增加新节点的准则不满足时 , RNA 算法利用 梯度下降法进行可调参数学习 , 包括隐层单元各个 基函数的中心 、宽度以及隐层至输出层之间的连接 权值. 其中误差函数为 E( t) = 1 2 δ2 TD . (7) 结合式 (1) ~ (3) ,可推导出各个参数的更新公 © 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
徐明亮等 : 自适应 RB F 网络 Q 学习控制       第 2 期 式分别为 w k ( t + 1) = w k +ηwδTDφk , μik ( t + 1) = μik ( t) +ημδTDωkφk σik ( t + 1) = μik ( t) +ησδTDφkωk (8) (9) . x i - μik σ2 ik , ( x i - μik ) 2 σ3 ik (10) 其中ηw ,ημ 和ησ 分别为权值 、基函数中心和宽度的 学习率. 4  算法描述 在时间 t , 学习主体感知自己所处的状态为 st , 所收到的增强信号为 rt . 学习主体执行的操作步骤 如下 : Step1 : 判断 st 是否是目标状态 , 如果不是 , 则 转到 Step2 ;如果是 ,则转到 Step4. Step2 : 以状态 st 作为网络输入状态 , 根据式 (4) 计算出 Q( st , a) 最大值对应的网络输入动作 anet ,即网络推荐的动作 ; 根据式 (5) 获得干扰动作 ; 根据式 (3) 得到学习 agent 的执行动作 a. Step3 : 执行动作 a , 将 agent 所处状态转移到 st+1 ,收到的增强信号为 rt+2 . t ←t + 1 ,转到 Step1. Step4 : st 是目标状态 , 利用经验重放获得网络 训练样本 ,利用第 3. 1 节的方法对网络进行训练 ,更 新网络的结构和参数. Step5 : 如果学习性能未达到要求 , 则重新开始 下一个场景的学习. 5  倒立摆系统实验 为验证本文算法的有效性 , 将该算法应用于倒 立摆的平衡控制. 倒立摆控制是自适应最优控制中 标准的测试问题 ,是典型的非线性系统. 该系统由小 车和一端通过铰链固定于小车顶部的摆杆组成. 控 制目标是通过在小车的左右两端施加作用力 , 使杆 偏离垂直方向的角度保持在 ±12°的范围内 ,小车位 移保持在 ±2. 4 m 的范围内 ,以免与轨道两端相碰. 系统 中 相 关 参 数 分 别 为 : 重 力 加 速 度 g = - 9. 8 m/ s2 , 小车质量 mc = 1. 0 kg , 杆质量 m p = 0. 1 kg , 杆的一半长 l = 0. 5 m ,小车与轨道的摩擦系 数 μc = 0. 000 5 , 摆 与 小 车 的 摩 擦 系 数 μp = 0. 000 002 , 作用力 F ∈[ - 10 ,10 ]N . 状态向量 S = [ s1 , s2 , s3 , s4 ] ,分别为小车位移 、 小车速度 、杆的偏离角度和角速度 , 作用力为 a. 则 网络输入向量 x = [ s1 , s2 , s3 , s4 , a]. 控制器从环境中得到的唯一反馈是状态转移时 环境反馈的奖赏. 定义为 503 (11) r = 0 , | θ| < 12°, | s1 | < 2. 4 m ; - 1 , ot herwise. 实验中涉及的其他参数分别为 :emim = 0. 01 , dmax = 1 , dmin = 0. 1 , d 衰减因子 decay = 0. 82 ,τ = 0. 87 ,ηw = 0. 02 ,ημ = 0. 02 ,ησ = 0. 02 ,采样周期 T = 0. 02 s. 动力学方程采用欧拉法进行计算 , 网络推荐的 动作采用格点法进行优化计算 , 格点数取为 20. 小 车初始状态设为[0 ,0 ,0 ,0 ]. 当平衡步数达到 10 000 时 ,认为倒立摆平衡控制取得成功 ,终止本次实验并 重新开始下一次实验. 当平衡失败时 ,小车状态回到 初始状态 ,重新开始学习. 采用 B P 算法[4 ] 、FRB F 算法[6 ] 和本文 RB F 算 法 ,20 次实验运行统计结果的性能比较如表 1 所示. 表 1  学习性能统计结果比较 Q 学习 方 法 BP FRBF 动作集合 最小学 习次数 最大学 习次数 平均学 习次数 { ±10} 853 1 547 1 100. 2 { ±10 , ±8 , ±6 , ±4 , ±2 ,0} RBF 连续 [ - 10 , + 10 ] 4 5 39 42 18. 1 16. 4 从表 1 可以看出 ,基于 RB F 网络的 Q学习方法 , 最少只需 5 次学习就能实现倒立摆的平衡控制 , 最 大学习次数为 42 , 平均学习次数为 16. 4 , 总体性能 优于其他 Q 学习方法. 这说明在学习过程中构建的 RB F 网络具有良好的泛化性能. 图 2 给出了系统经过 7 次学习后 ,倒立摆 10 000 步平衡过程中小车的位移变化. 可以看出 ,小车在大 约 800 步后位移保持小幅度波动. 图 2  小车位移 图 3 为该次实验中摆杆的角度变化. 可以看出 , 在小车位移保持小幅度波动时 , 倒立摆的角度也保 持小幅度波动. 为便于了解小车所受的作用力 , 图 4 给出了小 车在 5 000 步到 5 050 步的 50 步中 ,小车所受作用力 的局部特写. 可以看出 , 在大约 800 步左右 , 小车所 受左右作用力总体上大小相等且交替变化. 这与经 © 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
2 2 603 2 2 2 2 2 2 2 2 2      控   制   与   决   策 第 25 卷 学习的应用范围. 倒立摆的平衡控制实验验证了该 算法的有效性. 参考文献( References) [ 1 ] 张荣 , 陈卫东. 基于强化学习的倒立摆起摆与平衡全过 程控制[J ]. 系统工程与电子技术 , 2004 , 26 (1) : 72 76. (Zhang R , Chen W D. Swing up and balance control of inverted pendulum based on reinforcement learning systems[J ]. System Engineering and Electronics , 2004 , 26 (1) : 72 76. ) [ 2 ] Sutton R S , Barto A G. Reinforcement learning : An introduction[ M ]. Cambridge : MIT Press , 1998. [ 3 ] Watkins C J , Dayan P. Technical note : Q 292. Machine Learning , 1992 , 8 (3) : 279 learning [J ]. [ 4 ] 蒋国飞 , 吴沧浦. 基于 Q 学习算法和 BP 神经网络的倒 立摆控制[J ]. 自动化学报 , 1998 , 24 (5) : 662 (Jiang G F , Wu C P. Learning to control an inverted pendulum using Q learning and neural networks [ J ]. Acta Automatica Sinica , 1998 , 24 (5) : 662 666. ) 666. [ 5 ] Lionel Jouffe. Fuzzy inference system learning by reinforcement methods [ J ]. IEEE Trans on Systems , Man and Cybernetics — Part C : Applications and Reviews , 1998 , 28 (3) : 338 355. 8. [ 6 ] 程玉虎 , 王雪松 , 易建强 , 等. 基于自组织模糊 RBF 网 络的连续空间 Q 学习 [J ]. 信息与控制 , 2008 , 37 (1) : 1 (Cheng Y H , Wang X S , Yi J Q , et al. A Q learning method for continuous space based on self organizing f uzzy RBF network[J ]. Information and Control , 2008 , 37 (1) : 1 8. ) [ 7 ] Lin L . Self improving agent s based on reinforcement learning , planning and teaching[J ]. Machine Learning , 1992 , 8 (3) : 293 321. (11) : 1246 1249. [ 8 ] Yang K D , ¨Ozg¨uner ¨U . Sliding linear optimal control[J ]. Automatica , 1997 , 33 (77) 1313 1323. mode design for robust : [ 9 ] Yu G R , Tseng M H , Lin Y K. Optimal positioning control of a DC servo motor using sliding mode[ C]. Proc of the 2004 IEEE Int Conf on Control Applications. Taipei , 2004 , 2 4 : 272 277. [ 10 ] Gao W B , Hung J C. Variable structure control of nonlinear systems : A new approach[J ]. IEEE Trans on Industrial Electronics , 1993 , 40 (1) : 45 55. 图 3  摆杆角度 图 4  施加于小车作用力的局部特写 验推理一致 ,说明网络已学习到控制倒立摆平衡的 策略. 6  结    论 本文提出一种基于 RB F 网络的 Q 学习算法 , 该算法的特点是利用 RB F 网络直接逼近 Q 值函 数. 网络的输入为状态 动作对 ,输入的状态由系统 状态转移特性确定 ,输入的动作由网络推荐的动作 与干扰动作之和确定 ,实现了搜索与利用的平衡. 网 络推荐的动作对应于当前输入状态下的贪婪动作 , 通过优化网络输出的 Q 值而确定. 利用 RAN 算法 自适应调整网络结构. 这些特点使该算法不仅能将 Q 学习应用于离散的状态和动作空间 ,而且能应用 于连续状态和连续动作空间. 网络的自适应性使其 具有良好的泛化性能和较快的收敛速度 ,拓展了 Q   (上接第 302 页) [ 6 ] 高德欣 , 唐功友. 受正弦扰动时滞非线性系统的近似最 优减振控制[J ]. 控制与决策 , 2007 , 22 (9) : 1053 1057. ( Gao D X , Tang G Y. App roximate optimal damping control for time delay nonlinear systems with sinusoidal disturbances[J ]. Control and Decision , 2007 , 22 ( 9) : 1053 1057. ) [ 7 ] 张宝琳 , 唐功友. 受扰奇异摄动时滞组合大系统的近似 最优控制[J ]. 控制与决策 , 2007 , 22 (11) : 1246 (Zhang B L , Tang G Y. Approximate optimal control for singularly perturbed time delay compo site systems with disturbances [ J ]. Control and Decision , 2007 , 22 1249. © 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
分享到:
收藏