摘要
本发明公开了一种基于MADRL的飞行器集群协同控制方法,包括以下步骤:获取飞行器集群协同任务,考虑含有突变干扰的飞行器仿真环境,依据任务构建飞行器运动学和动力学模型;将所述飞行器集群任务建模为多智能体马尔可夫决策过程,代替基于负反馈的控制过程;对多智能体集群系统进行深度强化学习训练,从当前飞行器环境状态值产生控制飞行器的油门和三轴舵偏控制指令;设计基于选择性经验回放的深度强化学习算法,将飞行器环境状态值及对应油门和三轴舵偏控制指令存放入回放缓存池。本发明实现了复杂战场环境中多智能体飞行器集群系统飞行中进行自主智能决策,并且通过设计奖励函数和联合策略,提升了飞行器集群协同控制的鲁棒性、快速性和泛用性。