基于视觉语言模型隐空间表征的自省式终身SLAM方法及系统

申请号：CN202510687988

申请日期：2025-05-27

公开号：CN120599495A

公开日期：2025-09-05

类型：发明专利

摘要

本发明涉及一种基于视觉语言模型隐空间表征的自省式终身SLAM方法及系统，方法包括：基于RGB‑D图像利用语义编码器提取语义标签，并基于RGB‑D图像和语义标签生成场景地图和语义拓扑图；基于场景地图生成动态掩膜，获取动态掩膜覆盖率并基于覆盖率筛选高静态置信度值的关键帧；实时计算关键帧对应的相机位姿估计，通过对关键帧进行采样实现关键帧分层，并利用NeRF模型进行分层渲染得到虚拟视图；计算虚拟视图与对应真实图像的隐空间差异度，基于隐空间差异度判定是否需要进行误差自省，系统用于实现上述的方法。与现有技术相比，本发明实现了将VLM的开放语义推理、NeRF的高精度重建与SLAM的实时定位相结合，提高了定位与建图的准确。

技术关键词

SLAM方法动态掩膜关键帧语义标签生成场景相机位姿估计覆盖率图像拓扑图地图视觉编码分层网格移动平均滤波交叉注意力机制