摘要
本发明公开了优化子目标生成方法、覆盖路径规划方法、设备及介质,所述方法包括:为分层强化学习的高层策略和底层策略提供多尺度观测空间;定义一组具有高层策略和底层策略的分层强化学习框架;在一组多尺度地图上训练并使用一组邻接网络,用于将指定环境状态坐标映射至一组嵌入空间,使得在所述嵌入空间中的欧氏距离能够用于有效表征两点状态之间在真实环境中的可达性或过渡成本;在分层强化学习框架中利用所述邻接网络对高层策略生成的子目标进行约束,优先选择局部可达的子目标。本发明能够有效缩小高层策略的子目标搜索空间,使其生成的子目标既具有全局战略性,又具备局部可行性。