一种基于策略复用的多智能体强化学习交通信号控制方法

申请号：CN202411129211

申请日期：2024-08-16

公开号：CN119107801A

公开日期：2024-12-10

类型：发明专利

摘要

本发明提供一种基于策略复用的多智能体强化学习交通信号控制方法，属于交通信号控制技术领域。通过步骤：构建智能体通用EDLight模型；基于现有TOD场景对通用路网模型进行训练,并存储已学习环境模型；计算未知TOD目标环境和预训练任务环境的相似度；基于所述相似度，选择相似环境的预训练模型来指导目标智能体模型进行决策，并基于概率采样更新目标域模型，实现自主决策。实现了为未知目标网络模型选择最优策略，从而实现了智能体强化学习模型能够在路网中和跨路网迁移。解决了现有模型对交通信号控制迁移能力不足的问题。

技术关键词

交通信号控制方法策略智能体模型编码器交通信号控制技术决策动态变化模型邻居特征信息融合解码器强化学习模型路口特征预训练模型交通信号灯预测特征周期场景注意力机制网络架构