摘要
本发明公开了一种用于离线强化学习的模型融合方法,包括:获取初始模型集合;对所述初始模型集合中每个模型的操作原始变量进行张量典型相关性分析,生成变换矩阵;将所述初始模型集合中的其中一个模型作为基准模型,并通过所述变换矩阵将除所述基准模型之外的其他所有模型的操作原始变量映射至低维度子空间,再回映射至所述基准模型的空间,生成中间模型集合;对所述中间模型集合中每个模型的操作原始变量进行融合,生成融合后的操作原始变量;根据融合后的操作原始变量,生成最终融合模型。本发明提出的用于离线强化学习的模型融合方法,性能更优异,表现更鲁棒,可以解决现有模型对于机器人控制的训练抖动大,同一任务多个模型方差大等问题。