首页  专利技术  其他产品的制造及其应用技术

基于多智能体强化学习的多交通信号灯控制方法及系统

2025-04-02 13:40:01 41次浏览

技术特征:

1.一种基于多智能体强化学习的多交通信号灯控制方法,其特征在于,包括:

2.根据权利要求1所述的一种基于多智能体强化学习的多交通信号灯控制方法,其特征在于,在构建公平性奖励函数时,分别考虑通行效率和公平性;在通行效率上,考虑每个决策时段和一个信号灯周期内的影响;在决策时段上,选取排队长度的变化情况和相位的绿灯时间利用率来反映当前决策对单位时间内的通行效率的短期影响;在一个信号灯周期内,选取平均行程时间来评价所选择的动作集对一个周期内通行效率的影响;在公平性上,根据各相位的绿灯持续时间和红灯等待时间以及一个信号灯周期内各车流方向的通行情况建立约束条件并设置惩罚函数;其中,

3.根据权利要求2所述的一种基于多智能体强化学习的多交通信号灯控制方法,其特征在于,构建多交叉口状态通信机制时,将交叉口i的入口车道的车流状态和上游出口路段的车流状态组合为交叉口i的状态变量;

4.根据权利要求3所述的一种基于多智能体强化学习的多交通信号灯控制方法,其特征在于,所述目标值的计算公式为:

5.根据权利要求4所述的一种基于多智能体强化学习的多交通信号灯控制方法,其特征在于,所述连续拥堵惩罚项的公式为:

6.根据权利要求5所述的一种基于多智能体强化学习的多交通信号灯控制方法,其特征在于,所述目标奖励函数是将所述公平性奖励函数、通过区域的车辆数和连续拥堵惩罚项进行加权和后,作为每个智能体的奖励函数,其公式为:

7.根据权利要求6所述的一种基于多智能体强化学习的多交通信号灯控制方法,其特征在于,所述损失函数mse的公式为:

8.根据权利要求7所述的一种基于多智能体强化学习的多交通信号灯控制方法,其特征在于,所述估计网络的更新公式为:

9.根据权利要求1所述的一种基于多智能体强化学习的多交通信号灯控制方法,其特征在于,采用ε-greedy策略选择动作时,通过调节探索率ε来实现强化学习中的探索和利用;其中,ε表示进行随机选择动作的概率,1-ε表示选择最大的估计q值时对应的动作的概率,ε随着迭代训练次数的增加而不断减小。

10.一种基于多智能体强化学习的多交通信号灯控制系统,其特征在于,包括:


技术总结
本发明提供的基于多智能体强化学习的多交通信号灯控制方法及系统,涉及信号灯相位控制技术领域,本发明通过获取多个交叉口的路网结构与预设时段的交通数据,构建各交叉口的智能体,将相邻交叉口的上游路段出口的车流状态作为通信内容,构建多交叉口的状态通信机制;然后结合连续拥堵惩罚项构建目标奖励函数;为每个交叉口构建两个结构相同、参数不同的网络,对所有交叉口执行对应智能体的信号灯协调控制;最后采用损失函数与梯度下降法更新网络参数,直到达到最大仿真次数,得到多交叉口的信号灯相位控制策略。本发明建立了智能体之间的状态通信机制,捕捉相邻交叉口之间的动态车流特征,在实时交通数据下,能有效提升多交叉口区域的通行效率。

技术研发人员:王成,方艺鹏,王新艺,陈珞瑶,缑锦,吴志雄,高稳仁
受保护的技术使用者:华侨大学
技术研发日:
技术公布日:2024/11/18
文档序号 : 【 40051025 】

技术研发人员:王成,方艺鹏,王新艺,陈珞瑶,缑锦,吴志雄,高稳仁
技术所有人:华侨大学

备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
王成方艺鹏王新艺陈珞瑶缑锦吴志雄高稳仁华侨大学
降噪耐腐蚀铝合金制品及其制备工艺和应用的制作方法 一种汽车连杆的冷却装置及方法与流程
相关内容