首页  专利技术  电子通信装置的制造及其应用技术

一种基于改进DDPG算法的车辆跟驰行为决策方法

356次浏览

技术特征:

1.一种基于改进ddpg算法的车辆跟驰行为决策方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种基于改进ddpg算法的车辆跟驰行为决策方法,其特征在于,筛选出跟车事件的规则包括:

3.如权利要求1所述的一种基于改进ddpg算法的车辆跟驰行为决策方法,其特征在于,所述thw和ttci的表示方式为:

4.如权利要求1所述的一种基于改进ddpg算法的车辆跟驰行为决策方法,其特征在于,所述皮尔逊相关性分析计算公式:

5.如权利要求1所述的一种基于改进ddpg算法的车辆跟驰行为决策方法,其特征在于,所述奖励函数r,计算公式为:

6.如权利要求5所述的一种基于改进ddpg算法的车辆跟驰行为决策方法,其特征在于,所述r4和r5用于车辆跟驰行为决策中的碰撞和提早停车情景,分别定义发生碰撞和提早停车时的惩罚值情况;

7.如权利要求1所述的一种基于改进ddpg算法的车辆跟驰行为决策方法,其特征在于,所述s14中,使用策略梯度更新参与者网络的参数θμ:

8.如权利要求1所述的一种基于改进ddpg算法的车辆跟驰行为决策方法,其特征在于,所述参与者网络和评论家网络均由输入层、隐藏层和输出层组成,并且参与者网络和评论家网络的隐藏层均为30个神经元,参与者网络的输入层有三个输入,分别为纵向车辆的速度vfv、相对速度和纵向轨迹上的相对位置输出层为加速度a值,这也会作为评论家网络的输入,因此评论家网络有4个输入,输出层为q值。


技术总结
本发明涉及车辆行为决策的技术领域,特别是涉及一种基于改进DDPG算法的车辆跟驰行为决策方法,包括:根据原始自然数据集,筛选出符合条件的跟车事件数据,筛选出的跟车事件、选取数据集中合适的驾驶行为数据特征、建立基于改进DDPG算法的车辆跟驰模型、设置状态空间、设置动作空间、奖励函数R综合考虑了三方面因素、训练和策略收敛或达到预设的训练轮数时,终止训练过程;其通过双重经验回放池帮助存储和重用历史经验数据,引入两个独立回放池和进行延迟的间隔随机采样进行数据获取拟提高决策的效率,奖励函数综合考虑了三方面,安全性、效率性和舒适性,使得智能体能考虑到当前时间步的综合表现,从而达到精度较高的车辆跟驰行为决策的。

技术研发人员:冉川,谢志军,谢家豪,尹杨
受保护的技术使用者:宁波大学
技术研发日:
技术公布日:2024/11/14
文档序号 : 【 40002145 】

技术研发人员:冉川,谢志军,谢家豪,尹杨
技术所有人:宁波大学

备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
冉川谢志军谢家豪尹杨宁波大学
一种柔性化的涂装方法和柔性化的涂装车间布局与流程 二次电池单体和用电装置的制作方法
相关内容