摘要
本发明公开了一种环境探索方法,具体是涉及到一种基于深度强化学习的环境探索方法、装置及电子设备。本发明创新性地引入对比学习机制,模拟人类通过对比强化关键信息识别的认知过程,在高维特征空间中对不同效用等级的节点施加对比约束,实现潜在表征解耦,使决策网络精准捕获关键区域特征,显著提升最优视点选择精度。同时,本发明设计了一套包含强制动作约束的训练规则,以优化决策路径。此外,本发明还提出了一种创新的图稀疏化算法,通过自适应图结构的简化,在保持性能标准的同时简化了计算复杂度。本发明在保持计算成本最低的同时,实现了5.6%的性能提升,为机器人、无人机等设备在大规模环境中的自主探索提供了全新的解决方案。