摘要
本发明属于强化学习技术领域,涉及零样本离线逆向强化学习多智能体泛用协作方法。首先在多智能体任务中引入带有补充数据集的模仿学习,以解决在实践中遇到的专家数据集数量有限的问题;其次提出多智能体模仿学习分布校正估计的方法,考虑到补充数据集与专家数据集相比,补充数据集的质量、精度较差,因此在引入补充数据集后,先进行约束优化,确保优化解中变量之间的比例关系符合要求,使得优化解在面临微小扰动时仍能保持稳定,不易发生大的波动,同时密度比校正能够处理复杂的约束条件,使解在多变的环境中具有更强的适应性和鲁棒性;然后通过闭式解进行凸优化,对变化的参数也具有更好的稳定性,特别是在处理参数扰动时,能够保持较好的性能。