logo资料库

无人驾驶铰接式车辆强化学习路径跟踪控制算法_邵俊恺.pdf

第1页 / 共7页
第2页 / 共7页
第3页 / 共7页
第4页 / 共7页
第5页 / 共7页
第6页 / 共7页
第7页 / 共7页
资料共7页,全文预览结束
2017年3月农业机械学报第48卷第3期doi:10.6041/j.issn.1000-1298.2017.03.048无人驾驶铰接式车辆强化学习路径跟踪控制算法邵俊恺1赵翾1,2杨珏1张文明1康翌婷1赵鑫鑫1(1.北京科技大学机械工程学院,北京100083;2.北京华为数字技术有限公司,北京100085)摘要:针对无人驾驶铰接式运输车辆无人驾驶智能控制问题,提出了一种强化学习自适应PID路径跟踪控制算法。首先推导了铰接车的运动学模型,根据该模型建立实际行驶路径与参考路径偏差的模型,以PID控制算法为基础,设计了基于强化学习的自适应PID路径跟踪控制器,该控制器以横向位置偏差、航向角偏差、曲率偏差为输入,以转角控制量为输出,通过强化学习算法对PID参数进行在线自适应整定。最后在实车道路试验中验证了控制器的路径跟踪质量并与传统PID控制结果进行了对比。结果表明,相比于传统PID控制器,强化学习自适应PID控制器能够有效减小超调和震荡,实现精确跟踪参考路径,可以较好地实现系统动态性能和稳态误差性能的优化。关键词:铰接式车辆;驾驶;强化学习;路径跟踪中图分类号:TP273;U463.32+5文献标识码:A文章编号:1000-1298(2017)03-0376-07收稿日期:2016-04-18修回日期:2016-09-13基金项目:国家高技术研究发展计划(863计划)项目(2011AA060404)和中央高校基本科研业务费专项资金项目(FRF-TP-16-004A1)作者简介:邵俊恺(1985—),男,博士生,主要从事无人驾驶及路径跟踪控制研究,E-mail:shao@ustb.edu.cn通信作者:杨珏(1975—),男,副教授,主要从事非公路车辆设计研究,E-mail:yangjue@ustb.edu.cnReinforcementLearningAlgorithmforPathFollowingControlofArticulatedVehicleSHAOJunkai1ZHAOXuan1,2YANGJue1ZHANGWenming1KANGYiting1ZHAOXinxin1(1.SchoolofMechanicalEngineering,UniversityofScienceandTechnologyBeijing,Beijing100083,China2.BeijingHuaweiDigitalTechnologiesCo.,Ltd.,Beijing100085,China)Abstract:Withtheindustry4.0embracedanumberofcontemporaryautomation,dataexchangeandmanufacturingtechnologies,theautonomousdrivingsystemiswidespread.Inordertoenabletheautonomousdriving,pathfollowingstrategiesareessentialtomaintainthenormalworkofthevehicles.Thearticulatedframesteeringvehicles(ASV)areflexible,efficientandwidelyimplementedinagriculture,mining,constructionandforestrysectorsduetotheirhighmaneuverability.Thearticulatedvehicleusuallycomposesoftwounits,atractorandatrailer,whichareconnectedbyanarticulationjoint.However,astheASVdynamicsaresignificantlydifferentfromtheconventionalvehicleswithfrontwheelsteering,thepathfollowingcontrollerderivedforconventionalvehiclesisconsiderednottobeapplicablefortheASVs.Thusthepathfollowingcontrolischallengingtherobustness.ApathfollowingstrategyisproposedfortheASVsonthebasisofreinforcementlearningadaptivePIDalgorithm.ThekinematicmodeloftheASVisderivedbyneglectingthevehicledynamics.Threemeasurableerrorsaredefinedtoindicatethedeviationofrealpathfromreferencepath,i.e.,lateraldisplacementerror,orientationerrorandcurvatureerror.Theseerrorsareservedastheinputsinordertosynthesizethepathfollowingcontrollerandthedesiredsteeringangleisservedastheoutputofpathfollowingcontroller.BasedonthePIDalgorithm,thereinforcementlearningmethodisselectedforoptimizingtheparametersofPIDonlinetoreducetheovershootandchattering.Furthermore,theprototypetestisconductedtoevaluatetheperformanceoftheproposedcontrollaw.TheresultshowsthatcomparedwiththetraditionalPID,reinforcementlearningadaptivePIDcontrollercanrestraintheovershootandchatteringefficientlyandfollowthereferencepathaccurately.Keywords:articulatedvehicle;driving;reinforcementlearning;pathfollowing
引言铰接式车辆作为一种灵活、机动的运输设备,常用于非结构地形运输作业,然而特殊的转向形式使其路径跟踪控制与传统车辆有很大差别。针对路径跟踪控制算法,国内外众多学者进行了大量研究,主要算法包括比例积分微分(PID)控制[1]、滑模控制[2]、模糊控制[3]和智能控制[4]等。随着被控对象越来越复杂,控制器设计经常结合多种算法来实现功能互补和性能提升。ASLAM等[5]针对滑移转向车动力学模型进行了模糊滑模控制路径跟踪,赵翾等[6]针对铰接式车辆使用Ackermann公式与指数趋近律设计滑模控制进行路径跟踪。TALEBI等[7]提出一种用于轮式机器人的模糊PID路径跟踪控制器,将模糊逻辑用于PID参数调校。文献[5-7]所使用的路径跟踪算法均为离线算法,不能根据使用环境在线优化。裴岩[8]使用强化学习算法对车载导航系统路径规划进行优化,并预测了短时交通流。沈晶等[9]和付成伟[10]提出了一种基于分层强化学习的移动机器人路径规划算法,用于位置动态环境的路径规划。文献[8-10]均使用强化学习算法研究路径规划问题,与路径跟踪问题模型不同。本文开发一种结合机器学习与PID控制的路径跟踪算法并使用实车道路试验验证控制品质,旨在实现无人驾驶铰接式车辆路径跟踪在线优化。1铰接车模型1.1铰接车数学模型铰接车转向过程可以分解为2个运动,即稳态转向运动和原地转向运动,以下分别就这2种运动过程进行分析。图1铰接车稳态转向示意图Fig.1Schematicofarticulatedvehicleinsteady-statesteering图1为铰接车稳态转向模型,其中O为瞬心,Pf(xf,yf)和Pr(xr,yr)分别为前后桥中点,lf和lr分别为前后桥与铰接点距离,θf和θr为前后车体朝向,即航向角,前后车体夹角γ为铰接转向角。出于习惯考虑,通常以铰接车前桥中点Pf为整车状态参考点,因为该点的速度与铰接车的前进方向一致,有利于分析计算[11]。定义整车速度v为[12]v=vf(1)式中v———整车速度,m/svf———前车架速度,m/s前桥中点Pf速度[13]为x·f=vfcosθfy·f=vfsinθ{f(2)式中xf———前桥中点横坐标,myf———前桥中点纵坐标,mθf———前桥航向角,rad前桥航向角变化率即前桥角速度为θ·f=vfsinγlfcosγ+lr(3)式中lf、lr———前、后桥与铰接点距离,mγ———铰接转向角,rad铰接车稳态转向过程前桥的位姿状态可表示为Pf=(xf,yf,θf,γ),即x·fy·fθ·fγ·=cosθfsinθfsinγlfcosγ+lr0v(4)图2为铰接车原地转向模型,因为Pf为整车状态参考点,因此认为原地转向过程中该点相对地面静止[6]。图2铰接车原地转向示意图Fig.2Schematicofarticulatedvehicleinpivotsteering则前桥中点Pf在XY平面上的速度分量为x·f=0y·f{=0(5)航向角变化率为θ·f2=lrγ·lfcosγ+lr(6)铰接车稳态转向过程前桥的位姿状态可表示为Pf=(xf,yf,θf,γ),即773第3期邵俊恺等:无人驾驶铰接式车辆强化学习路径跟踪控制算法
x·fy·fθ·fγ·=00lrlfcosγ+lr1γ·(7)联立式(4)、式(7)得出铰接车位姿状态Pf=(xf,yf,θf,γ),即x·fy·fθ·fγ·=cosθfsinθfsinγlfcosγ+lr0v+00lrlfcosγ+lr1γ·(8)1.2运动路径描述图3为铰接车路径示意图,定义了铰接车在行驶过程中,实际路径和参考路径之间的偏差[14-16]。小圆圆心为c,是铰接车瞬时实际行驶轨迹;大圆圆心为C,是铰接车参考轨迹。理想情况下,铰接车应能通过参考轨迹上的3个点P1、P2、P3。图3铰接车路径示意图Fig.3Schematicofarticulatedvehiclepath现定义如下变量[17-18]:(1)横向位置偏差εd:铰接车参考定位点p与参考路径上对应点P(与参考路径距离最近点)的横向位置差值。(2)航向角偏差εθ:铰接车定位参考点p的航向角(速度方向与车辆坐标系X轴之间的夹角)与参考路径上对应点P的航向角(对应点的切线与车辆坐标系X轴之间的夹角)的差值。(3)曲率偏差εc:铰接车定位参考点p与参考路径上对应点P的曲率差值。图4为实际路径逼近参考路径情况示意图。图4a为实际路径与参考路径平行的情况,此时两路径距离即为横向位置偏差εd,控制器可以根据该偏差计算控制量使横向位置偏差εd减小;图4b为实际路径与参考路径相交的情况,此时两路径夹角即为航向角偏差εθ,当铰接车向参考路径接近时,虽然减小了横向位置偏差εd,却产生了航向角偏差εθ,在铰接车行驶至路径交点处时横向位置偏差εd消除,但由于车体惯性与外界环境干扰等因素影响,铰接车依旧保持之前的航向,则下一时刻开始横向位置偏差εd再次产生,因此航向角偏差也需要作为控制器输入进行控制;图4c为实际路径与参考路径相切的情况,此时两路径切点处曲率差为曲率偏差εθ,铰接车行驶至切点位置时横向位置偏差εd与航向角偏差εθ均为0,但由于车体惯性与外界环境干扰等因素影响,铰接车依旧保持之前的转角,则下一时刻开始横向位置偏差εd与航向角偏差εθ再次产生。因此横向位置偏差εd、航向角偏差εθ、曲率偏差εc均需要作为控制器输入进行偏差控制,以加快收敛速度、减小震荡。图4实际路径逼近参考路径情况示意图Fig.4Schematicsofrealpathandreferencepath2强化学习自适应PID路径跟踪算法2.1强化学习方法强化学习是机器学习中的一种重要方法,不同于监督学习方法,其不需要根据样本进行训练[19-20],而是通过与外界环境进行互动,并收到环境反馈和评价结果来选择下一时刻执行动作。该算法适合在线优化。因此本文使用强化学习方法对PID参数进行在线实时整定,从而使路径跟踪控制器自适应不同工况。2.2强化学习自适应PID算法强化学习自适应PID算法结构如图5所示[21],自适应PID控制器为一个可以随输入变化而改变增益的PID控制器,被控对象即铰接车,输出为路径偏差,参考模型则是对偏差收敛的趋势进行规定,以获得理想的收敛效果。参考模型期望的偏差收敛值与实际偏差差值根据回报函数计算会得到一个当前参数效果的评价,通过累计历史回报计算综合回报指标,作为Actor-Critic网络对历史多次参数调整结果的优劣的评价,再根据评价调整新的增益参数,并传递给PID控制器。则自适应PID控制器的PID增益为K(t)=K0+ΔK(9)873农业机械学报2017年
式中K(t)———自适应PID增益向量K0———常数向量ΔK———自适应PID增益可变向量图5强化学习自适应PID算法结构Fig.5FlowchartofenforcementlearningadaptivePID由于被控对象输出不是单一变量,Actor-Critic网络根据评价进行随机探索需要指定分布规则,这里选用高斯分布作为动作执行概率的表述[22],即ΔK~N(K(Δyt),σ(Δyt))(10)σ=σ11+exp(σ2V(Δy))(11)式中K———Actor网络输出向量σ———行为探索方差V(Δy)———Critic对当前状态的值函数估计σ1、σ2———常数回报函数用于对当前整定的参数效果进行评价,因此直接关系到后续动作的选择,一般以参考模型和被控对象输出差值的加权作为回报函数用以评价参数效果。rt=k|Δy|(12)式中rt———回报值k———比例系数,常数或分段常数Actor-Critic结构中Critic需要更新历史执行动作的综合评价,因此需要定义指标用来量化综合评价,学习的优化目标是使历史折扣回报最大化,综合回报指标为J=∑Tt=0βtrt(13)式中J———折扣总回报指标β———折扣因子由于回报函数输入是实际偏差与参考模型的期望偏差的函数,因此综合汇报指标可以反映实际偏差对参考模型逼近的程度。强化学习自适应PID控制器学习算法停止准则为综合回报指标达到要求或学习次数达到给定最大值。本文使用的自适应PID算法使用Actor网络输出作为可变增益部分的结果,相比直接作为全部增益结果,避免了初期学习时输出不稳定和学习时间长的问题。2.3路径跟踪控制算法设计根据偏差定义,强化学习自适应PID控制律为u(t)=(kd0+Δkd)εd(t)+(kθ0+Δkθ)εθ(t)+(kc0+Δkc)εc(t)+kDε·d(t)+kI∑ti=0εd(i)(14)式中kd0、kθ0、kc0、kD、kI———PID增益常数部分Δkd、Δkθ、Δkc———PID增益可变部分为了加快学习时间、避免系统不稳定输出,式(9)中PID增益常数部分由试凑得出,而增益可变部分通过强化学习自适应PID控制器调节,从而优化不同工作环境下的路径跟踪性能。根据式(14)的自适应PID控制律,控制器强化学习部分由Actor-Critic网络组成[23],参考模型期望的偏差与实际偏差差值作为Critic的输入,Critic输出为当前增益值下的值函数,Actor输入与Critic相同,网络输出则为增益的调节结果。Critic使用CMAC网络,Actor使用BP神经网络。PID增益可变部分采用式(10)进行随机尝试。定义z1、z2、z3(0≤zi≤1,i=1,2,3)为Actor的输出,则可变增益为[24]ΔkΔkθΔkc=z1-0.5z2-0.5z3-0.5UdUθUcT(15)式中Ud、Uθ、Uc———可变增益Δkd、Δkθ、Δkc的变化范围为了获得理想偏差收敛效果,定义参考模型为y·r=-byr(16)式中b———正常数该参考模型定义了系统输出偏差应按照指数收敛,收敛速度可以通过调节系数控制。作为Critic对Actor输出的评价,回报函数设计为rt=k|y-yr|(|y-yr|>e1)-c(e2≤|y-yr|≤e1)0(|y-yr|<e2{)(17)式中e1、e2、c———常数k———回报比例系数其中,0≤e1≤e2,c>0,k>0。该回报函数使系统侧向偏差趋向参考模型偏差,从而达到指数收敛性能。3道路试验铰接车路径跟踪控制试验使用环形模拟巷道进973第3期邵俊恺等:无人驾驶铰接式车辆强化学习路径跟踪控制算法
行测试,如图6所示,通过测量各向偏差与控制器输出对控制效果进行验证。图6路径跟踪试验Fig.6Testofpathfollowing利用强化学习算法的自适应PID路径跟踪控制器对铰接车进行路径跟踪,测试环形道路路径跟踪性能。其中参考模型和回报函数参数为:b=0.2,k=0.4,e1=0.05,e2=0.01,c=0.1,Critic网络学习因子为0.05,Actor网络学习因子为0.2。PID增益由手工试凑得出,其中增益常数部分为kd=80,kθ=45,kc=3,kI=1,kD=0.1。自适应PID控制器增益可变部分为Ud=40,Uθ=30,Uc=4。根据以上参数,分别使用传统固定增益PID控制器和强化学习自适应PID控制器对环形道路进行路径跟踪试验以验证控制器性能,试验时间100s。4试验结果分析图7和图8分别给出了路径跟踪过程中固定参数PID和强化学习自适应PID控制器的性能比较,包括偏差变化和转向角控制量变化情况。表1为试验结果统计,可以看出经过强化学习自适应PID算法相比固定参数PID算法各向偏差和控制量的幅值、均值、方差均有明显减小。表明该算法能有效减少震荡和稳态误差、提高收敛速度。图9显示了经过强化学习后的自适应PID控制器增益变化情况,横向位置偏差增益系数从初始固定增益80增至90附近,随后在80~100之间调整;航向角偏差增益系数从初始固定增益45迅速降至35,随后在32~38之间调整;曲率偏差增益系数从初始固定增益3迅速降至1.9,随后在1.7~2.1范围内。可以看出偏差增益系数随偏差变化情况进行图7路径跟踪偏差曲线Fig.7Changingcurvesoferrorsinpathfollowing图8路径跟踪转向角控制量曲线Fig.8Changingcurvesofdesiredarticulatedanglesinpathfollowing表1试验结果统计Tab.1Statisticsoftestresult参数学习前学习后幅值/mm8.970×10-14.166×10-1横向位置偏差均值/mm-1.081×10-2-6.921×10-3方差/mm24.660×10-21.378×10-2幅值/rad5.449×10-23.852×10-2航向角偏差均值/rad5.794×10-32.911×10-3方差/rad23.135×10-48.359×10-5幅值/m-16.196×10-23.899×10-2曲率偏差均值/m-1-4.394×10-3-2.778×10-3方差/m-25.143×10-41.241×10-4转向角控制量幅值/rad7.850×10-14.298×10-1方差/rad25.201×10-22.122×10-2自适应改变。当实际路径与参考路径距离较远时横向位置偏差影响起主要作用,而当实际路径接近参考路径时,航向角偏差与曲率偏差起主要作用。该算法可以实现PID控制器参数的自适应整定,实现路径跟踪控制的智能化。083农业机械学报2017年
图9路径跟踪比例增益变化Fig.9Changesofproportionalinpathfollowing5结束语提供了一种应用于无人驾驶铰接式车辆的强化学习自适应PID控制精确路径跟踪的方法,以横向位置偏差、航向角偏差、曲率偏差作为路径跟踪算法输入,实现了铰接式车辆路径跟踪,试验结果表明,该算法稳定可靠,可以实现铰接式车辆的在线优化路径跟踪控制。横向位置偏差幅值、均值、方差分别为4.166×10-1mm、-6.921×10-3mm、1.378×10-2mm2,航向角偏差幅值、均值、方差分别为3.852×10-2rad、2.911×10-3rad、8.359×10-5rad2,曲率偏差幅值、均值、方差分别为3.899×10-2m-1、-2.778×10-3m-1、1.241×10-4m-2,转向角控制量幅值、方差分别为4.298×10-1rad、2.122×10-2rad2,相比于传统PID控制器,强化学习自适应PID控制器能够使铰接式车辆具有更精确的跟踪参考路径。参考文献1陶永华,尹怡欣,葛芦生.新型PID控制及其应用[M].北京:机械工业出版社,1998.2刘金琨.滑模变结构控制MATLAB仿真[M].北京:清华大学出版社,2005.3林辉.轮毂电机驱动电动汽车联合制动的模糊自整定PID控制方法研究[D].长春:吉林大学,2013.LINHui.ResearchoncompositeABScontrolstrategyoffuzzyself-adjustingPIDforelectric-wheelvehicle[D].Changchun:JilinUniversity,2013.(inChinese)4辛斌,陈杰,彭志红.智能优化控制:概述与展望[J/OL].自动化学报,2013,39(11):1831-1848.http:∥www.aas.net.cn/CN/abstract/abstract18223.shtml.DOI:10.3724/SP.J.1004.2013.01831.XINBin,CHENJie,PENGZhihong.Intelligentoptimizedcontrol:overviewandprospect[J/OL].ActaAutomaticaSinica,2013,39(11):1831-1848.(inChinese)5ASLAMJ,QINShiyin,ALVIMA.Fuzzyslidingmodecontrolalgorithmforafour-wheelskidsteervehicle[J].JournalofMechanicalScienceandTechnology,2014,28(8):3301-3310.6赵翾,杨珏,张文明,等.农用轮式铰接车辆滑模轨迹跟踪控制算法[J/OL].农业工程学报,2015,31(10):198-203.http:∥www.tcsae.org/nygcxb/ch/reader/view_abstract.aspx?flag=1&file_no=20151026&journal_id=nygcxb.DOI:10.11975/j.issn.1002-6819.2015.10.026.ZHAOXuan,YANGJue,ZHANGWenming,etal.Slidingmodecontrolalgorithmforpathtrackingofarticulateddumptruck[J/OL].TransactionsoftheCSAE,2015,31(10):198-203.(inChinese)7TALEBIAH,DEHGHANITA.UsingafuzzyPIDcontrollerforthepathfollowingofacar-likemobilerobot[C]∥InternationalConferenceonRoboticsandMechatronics,ICRoM2013,2013:189-193.8裴岩.机器学习理论研究及其在车载导航系统中的应用[D].沈阳:东北大学,2009.PEIYan.Researchonthemachinelearningtheoryanditsapplicationinthevehiclenavigationsystem[D].Shenyang:NortheasternUniversity,2009.(inChinese)9沈晶,顾国昌,刘海波.未知动态环境中基于分层强化学习的移动机器人路径规划[J/OL].机器人,2006(5):544-547.http:∥robot.sia.cn/CN/abstract/abstract12918.shtml.DOI:10.3321/j.issn:1002-0446.2006.05.017.SHENJing,GUGuochang,LIUHaibo.Mobilerobotpathplanningbasedonhierarchicalreinforcementlearninginunknowndynamicenvironment[J/OL].Robot,2006(5):544-547.(inChinese)10付成伟.基于分层强化学习的移动机器人路径规划[D].哈尔滨:哈尔滨工程大学,2008.FUChengwei.Mobilerobotpathplanningbasedonhierarchicalreinforcementlearning[D].Harbin:HarbinEngineeringUniversity,2008.(inChinese)11ZHAOXuan,YANGJue,LILin,etal.Pathtrackingcontrolforautonomousundergroundminingarticulateddumptruck[J].EEA-Electrotehnica,Electronica,Automatica,2015,63(3):75-82.12李建国,战凯,石峰,等.基于最优轨迹跟踪的地下铲运机无人驾驶技术[J/OL].农业机械学报,2015,46(12):323-328.http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?flag=1&file_no=20151244&journal_id=jcsam.DOI:10.6041/j.issn.1000-1298.2015.12.044.LIJianguo,ZHANKai,SHIFeng,etal.Auto-drivingtechnologyforundergroundscraperbasedonoptimaltrajectorytracking[J/OL].TransactionsoftheChineseSocietyforAgriculturalMachinery,2015,46(12):323-328.(inChinese)183第3期邵俊恺等:无人驾驶铰接式车辆强化学习路径跟踪控制算法
13习波波.具有二自由度铰接车体的轮式越野车辆转向系统研究[D].长春:吉林大学,2013.XIBobo.Studyonsteeringsystemofwheeledoff-roadvehiclewithtwodegreesoffreedomarticulatedbody[D].Changchun:JilinUniversity,2013.(inChinese)14张广庆,朱思洪,李伟华,等.铰接摆杆式大功率拖拉机原地转向仿真与实验[J/OL].农业机械学报,2012,43(10):25-30,18.http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?flag=1&file_no=20121005&journal_id=jcsam.DOI:10.6041/j.issn.1000-1298.2012.10.005.ZHANGGuangqing,ZHUSihong,LIWeihua,etal.Simulationandexperimentofin-situsteeringoflargewheeltractorwithhingeswinglink[J/OL].TransactionsoftheChineseSocietyforAgriculturalMachinery,2012,43(10):25-30,18.(inChinese)15LEEJH,YOOWS.Predictivecontrolofavehicletrajectoryusingacoupledvectorwithvehiclevelocityandsideslipangle[J].InternationalJournalofAutomotiveTechnology,2009,10(2):211-217.16NAYLT,NIKOLAKOPOULOSG,GUSTFSSONT.Switchingmodelpredictivecontrolforanarticulatedvehicleundervaryingslipangle[C]∥201220thMediterraneanConferenceonControlandAutomation(MED),2012:890-895.17RIDLEYP,CORKEP.Loadhauldumpvehiclekinematicsandcontrol[J].ASMEJournalofDynamicSystems,MeasurementandControl,2003,125(1):54-59.18MAKELAH,LEHTINENH,RINTANENK,etal.NavigationsystemforLHDmachines[C]∥Proceedingsofthe19952ndIFACConferenceonIntelligentAutonomousVehicles,1995:295-300.19HEMAMIA,POLOTSKIV.PathtrackingcontrolproblemformulationofanLHDloader[J].InternationalJournalofRoboticsResearch,1998,17(2):193-199.20MITCHELLT.机器学习[M].曾华军,张银奎,译.北京:机械工业出版社,2008.21吴军,徐昕,王健,等.面向多机器人系统的增强学习研究进展综述[J/OL].控制与决策,2011,26(11):1601-1610,1615.http:∥kzyjc.alljournals.cn/ch/reader/view_abstract.aspx?file_no=2011-0347&flag=1.DOI:10.13195/j.col.2011.11.4.wuj.014.WUJun,XUXin,WANGJian,etal.Recentadvancesofreinforcementlearninginmulti-robotsystems:asurvey[J/OL].ControlandDecision,2011,26(11):1601-1610,1615.(inChinese)22徐昕.增强学习与近似动态规划[M].北京:科学出版社,2010.23LINC,GEORGELCS.Reinforcementstructure/parameterlearningforneural-network-basedfuzzylogiccontrolsystems[J].IEEETransactionsonFuzzySystems,1994,2(1):46-63.24BARTOAG,SUTTONRS,ANDERSONCW.Neuronlikeadaptiveelementsthatcansolvedifficultlearningcontrolproblems[J].IEEETransactionsonSystems,ManandCybernetics,1983,SMC-13(5):834-846.25徐昕.增强学习及其在移动机器人导航与控制中的应用研究[D].长沙:国防科学技术大学,2002.XUXin.Reinforcementlearninganditsapplicationsinnavigationandcontrolofmobilerobots[D].Changsha:NationalUniversityofDefenseTechnology,2002.(inChinese)283农业机械学报2017年
分享到:
收藏