摘要
本发明公开了一种基于离线强化学习的原型可解释飞行器控制方法,包括:获取目标飞行器的当前观测状态,将当前观测状态输入到训练后的飞行器控制模型中,输出当前观测状态对应的动作决策;其中,飞行器控制模型的训练步骤包括:从飞行器在不同环境条件下执行历史任务的离线数据集中,获取多条飞行器轨迹数据;从多条飞行器轨迹数据中,提取训练数据集;利用训练数据集优化飞行器控制模型的参数,获得训练后的飞行器控制模型。该方法通过从大量离线数据中学习,将复杂的参数设置问题转化为数据采样问题,大大简化了参数调整的复杂度;通过离线学习,显著提高样本效率,无需和环境进行交互,显著提高样本效率。