摘要
本发明公开了一种基于双层强化学习的星间链路卫星测控调度方法及系统,包括:建立星间链路卫星测控调度模型,星间链路卫星测控调度模型的优化目标是最大化任务的总收益;通过上层优化模型根据请求的任务与地面站天线的支撑关系,将所有任务分配到地面站天线上;下层优化模型通过上层优化模型提供的任务分配方案,计算该动作下的任务收益回报和下一步的状态,实现上层优化模型和下层优化模型的信息反馈交互,双层优化过程循环多次,下层单天线调度结果反馈到上层指导下一次的卫星测控任务分配,确定每个任务执行的时间窗口。该方法基于双层的深度强化学习算法,上层优化卫星测控任务分配问题,下层优化单天线任务调度问题,提升求解的质量和速度。