(12)发明专利申请
(10)申请公布号 CN 108820157 A(43)申请公布日 2018.11.16
(21)申请号 20181037.4(22)申请日 2018.04.25
(71)申请人 武汉理工大学
地址 430070 湖北省武汉市洪山区珞狮路
122号(72)发明人 张蕊 王潇 刘克中 吴晓烈
刘炯炯 (74)专利代理机构 武汉科皓知识产权代理事务
所(特殊普通合伙) 42222
代理人 魏波(51)Int.Cl.
B63B 43/18(2006.01)
权利要求书1页 说明书4页 附图1页
CN 108820157 A()发明名称
一种基于强化学习的船舶智能避碰方法(57)摘要
本发明公开了一种基于强化学习的船舶智能避碰方法,首先获取两艘船的静态数据和动态数据;然后检验数据的合法性,判断是否需要启动避碰程序;计算相关避碰参数,判断是否会产生危险情况;如果不会产生碰撞危险,则按照“避碰规则”保持速度和方向前进即可;如果会产生碰撞危险,则运用强化学习方法来学习避碰策略,输入数据为计算后的参数进行训练,输出为训练之后生成的策略,获取本船所需转的舵角;接着执行策略,动态更新步骤1中两艘船的动态数据,并返回一个奖励值;策略执行结束后,根据“避碰规则”确定复航时机然后复航。本发明实现了船舶避碰的自主学习与改进,避免了海员等纯粹依靠经验导致的不利局面。
CN 108820157 A
权 利 要 求 书
1/1页
1.一种基于强化学习的船舶智能避碰方法,其特征在于,包括以下步骤:第1步:获取两艘船的静态数据和动态数据;第2步:检验数据的合法性,计算相关避碰参数,判断是否会产生危险情况,启动避碰程序;
第3步:如果不会产生碰撞危险,则按照“避碰规则”保持速度和方向前进即可;如果会产生碰撞危险,则运用强化学习方法来学习避碰策略,输入数据为计算后的参数进行训练,输出为训练之后生成的策略,获取本船所需转的舵角;
第4步:执行第3步生成的策略,然后动态更新步骤1中两艘船的动态数据,并返回一个奖励值;所述奖励值用来评价避碰策略的好坏;
第5步:策略执行结束后,根据“避碰规则”确定复航时机然后复航。2.根据权利要求1所述的基于强化学习的船舶智能避碰方法,其特征在于:步骤1中,两艘船的静态数据和动态数据包括本船信息和目标船信息;所述本船信息包括船舶状态、船舶旋回性指数、船舶追随性指数、航迹向、船艏向、对地速度、对水速度、经度、纬度、舵角、吃水;所述目标船信息包括船名、MMSI、呼号、船舶类型、船长、船宽、航迹向、船艏向、对地速度、对水速度、经度、纬度、距离、真方位、相对方位。
3.根据权利要求1所述的基于强化学习的船舶智能避碰方法,其特征在于:步骤2中,所述相关避碰参数包括最近会遇时间TCPA、最近会遇距离DCPA、安全会遇距离SDA,紧迫局面距离CQS,紧迫危险距离IMD,相对运动速度VR和相对运动方向AR;
所述判断是否会产生危险情况,当TCPA>0,且DCPA 步骤4.3:将用来测试的船舶的静态参数和动态参数输入训练好的模型;步骤4.4:输出本船所需转的舵角。 5.根据权利要求1-4任意一项所述的基于强化学习的船舶智能避碰方法,其特征在于:步骤4中,所述奖励值包括最小航迹偏移量、最短避让时间、最短避让路径、最小避让幅度;策略的优劣取决于长期执行这一策略后得到的累积奖赏,策略会在训练的过程中经过若干次迭代、训练后,当代表奖赏的Q值收敛到最大值时不断得到优化。 2 CN 108820157 A 说 明 书 一种基于强化学习的船舶智能避碰方法 1/4页 技术领域 [0001]本发明属于人工智能技术领域,涉及一种船舶智能避碰方法,具体是一种基于强化学习的船舶智能避碰方法。 背景技术 [0002]在航海过程中,船舶避碰是不可忽略的问题,这个问题有许多不同的解决方案,利用基于AIS的船舶避碰智能决策,利用智能算法基于进化遗传算法的船舶避碰,基于贝叶斯网络的船舶避碰算法等,这些算法都具有一定的解决船舶避碰问题的能力,但是也有它们的局限性,它们对避碰策略不能够自我学习和改进。[0003]当前,船舶在开阔水域避让问题涉及多船之间,现有的开阔水域的船舶避碰方式主要还是基于《国际海上避碰规则》,当前,因“避碰规则”相关避让条款多为定性描述,在实际船舶避让过程中,海员通常做法、驾驶员实际操船经验等会对具体决策方案和船舶的避碰效果产生明显影响。[0004]实际情况中,船舶避碰主要是靠人的操控,十分依靠于海员的通常做法和驾驶员的实际操船经验,这样就具有很多的不稳定性。发明内容 [0005]为了解决上述技术问题,本发明采用强化学习实现对避碰策略和算法的优化,提供了一种基于强化学习的船舶智能避碰方法,实现了船舶避碰的自主学习与改进,避免了海员等纯粹依靠经验导致的不利局面。 [0006]本发明解决其技术问题所采用的技术方案是:一种基于强化学习的船舶智能避碰方法,其特征在于,包括以下步骤:[0007]第1步:获取两艘船的静态数据和动态数据;[0008]第2步:检验数据的合法性,计算相关避碰参数,判断是否会产生危险情况,启动避碰程序;[0009]第3步:如果不会产生碰撞危险,则按照“避碰规则”保持速度和方向前进即可;如果会产生碰撞危险,则运用强化学习方法来学习避碰策略,输入数据为计算后的参数进行训练,输出为训练之后生成的策略,获取本船所需转的舵角;[0010]第4步:执行第3步生成的策略,然后动态更新步骤1中两艘船的动态数据,并返回一个奖励值;所述奖励值用来评价避碰策略的好坏;[0011]第5步:策略执行结束后,根据“避碰规则”确定复航时机然后复航。[0012]本发明的有益效果是,它采用了强化学习来进行策略的优化,有效的辅助操作人员减少了由于直觉和经验导致的失误操作,有效的提升了船舶避碰的效率,使用了机器学习的方法,与传统的避碰算法相比具有自主学习的过程,使船舶避碰能自我改进策略。将策略进行优化后,可方便地将机器学习到的最优策略提供给操作人员参考,做出高质量的决策来避免更加免紧迫局面的产生,。 3 CN 108820157 A 说 明 书 2/4页 附图说明 [0013]图1为本发明实施例的原理图。 具体实施方式 [0014]为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。 [0015]机器学习领域中,强化学习作为一种人工智能方法,以DeepMind团队为代表的研究团队首次提出基于DQN(Deep Q-Network)的深度强化学习方法,并使用Atari2600部分游戏作为测试对象,结果可以超过人类玩家,效果显著。2012年,Lange进一步开始做应用,提出了Deep Fitted Q学习用于车辆控制。试验表明该方法适用于智能控制、机器人及分析、预测等领域,对船舶避碰优化操纵提供了新的思路和机遇。本发明可以很好的拟合人类海员的行动,使船舶智能避碰决策具有了自主学习与改进的特点。[0016]请见图1,本发明提供的一种基于强化学习的船舶智能避碰方法,包括以下步骤:[0017]第1步:获取两艘船的静态数据和动态数据; [0018]两艘船的静态数据和动态数据包括本船信息和目标船信息;本船信息包括船舶状态、船舶旋回性指数、船舶追随性指数、航迹向、船艏向、对地速度、对水速度、经度、纬度、舵角、吃水;目标船信息包括船名、MMSI、呼号、船舶类型、船长、船宽、航迹向、船艏向、对地速度、对水速度、经度、纬度、距离、真方位、相对方位。[0019]第2步:检验数据的合法性,计算相关避碰参数,判断是否会产生危险情况,启动避碰程序;[0020]相关避碰参数包括最近会遇时间(TCPA:Time to Closest Point of Approaching)、最近会遇距离(DCPA:Distance of Closest Point of Approaching)、安全会遇距离(SDA:Safety Distance of Approaching),紧迫局面距离(CQS:Close-quarters Situation Distance),紧迫危险距离(IMD:Immediate Danger Distance),相对运动速度(VR:Relative Velocity)和相对运动方向(AR:Relative Angle);[0021]判断是否会产生危险情况,当TCPA>0,且DCPA 4 CN 108820157 A 说 明 书 3/4页 航速,A为动作集描述船舶应该转过的舵角,为转移函数,指定了状态转移概率;为奖赏函数,指定了奖赏。现有的算法通常采用DQN(Deep Q-learning Network)来训练数据。首先初始化Q-Table,行和列分别是S和A,Q-Table的值用来衡量当前的状态s采取的动作a的好坏。在训练过程中本实施例采用Bellman等式来更新Q-Table: [0029]Q(s,a)=r+γ(max(Q(s′,a′)) [0030]Q(s,a)表示成当前s采取a后的即时r,加上折价γ后的最大reward max(Q(s′,a′))。 [0031]本实施例在DQN中通过神经网络来实现Q-Table,输入状态x输出不同动作a的Q值。其对应的算法如下 [0032]1.用一个深度神经网络来作为Q值的网络,参数为ω;[0033]Q(s,a,ω)≈Qπ(s,a) [0034]2.在Q值中使用均方差mean-square error来定义目标函数objective function也就是loss function; [0035]L(ω)=E[(r+γ·maxa,Q(s,,a,,ω)-Q(s,a,ω)2)][0036]上面公式是s′,a′即下一个状态和动作,这里用了David Silver的表示方式,看起来比较清晰。可以看到,这里就是使用了Q-Learning要更新的Q值作为目标值。有了目标值,又有当前值,那么偏差就能通过均方差来进行计算。[0037]3.计算参数ω关于loss function的梯度; [0038][0039][0040] 4.使用SGD实现End-to-end的优化目标;计算出上面的梯度,而 从深度神经网络中进行计算,因此,就可以使用SGD 随机梯度下降来更新参数,从而得到最优的Q值。[0041]5.以概率ε随机选择动作at或者通过网络输出的Q值选择Q值最大的动作at,然后得到执行at后的奖励rt和下一个网络的输入,网络再根据当前的值计算下一时刻网络的输出,如此循环。 [0042]经过若干次迭代、训练后,当Q值收敛到最大值时代表训练出了好的模型。将训练好的模型运用于两船的避碰,它会在当时的紧急情况下预测最优的避碰策略,也就是所转的舵角,辅助操作人员进行船舶的控制,变更船舶状态直到避碰行为结束。[0043]第4步:执行第3步生成的策略,然后动态更新步骤1中两艘船的动态数据,并返回一个奖励值;所述奖励值用来评价避碰策略的好坏;[0044]奖励值包括最小航迹偏移量、最短避让时间、最短避让路径、最短、最小避让幅度;策略的优劣取决于长期执行这一策略后得到的累积奖赏,策略会在训练的过程中经过若干次迭代、训练后,当代表奖赏的Q值收敛到最大值时不断得到优化。[0045]第5步:策略执行结束后,根据“避碰规则”确定复航时机然后复航。[0046]应当理解的是,本说明书未详细阐述的部分均属于现有技术。[0047]应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的,本领域的普通技术人员在本发明的启示下,在不脱离本发明权 5 CN 108820157 A 说 明 书 4/4页 利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。 6 CN 108820157 A 说 明 书 附 图 图1 7 1/1页 因篇幅问题不能全部显示,请点此查看更多更全内容,S为状态集描述船的航向
Copyright © 2019- huatuo9.cn 版权所有 赣ICP备2023008801号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务