摘要
本发明公开了一种基于图像‑文本融合增强的多模态泊车检测系统,多视角摄像头输入图像信息,摄像头特征提取模块提取多视角摄像头图像特征,图像特征空间转换模块,将多视角摄像头图像融合至bev视角,实现多视角图像特征到bev特征的转换;输入文本模态信息,文本特征提取模块提取用户意图文本特征;多模态特征融合模块,获得文本特征和bev特征后,多模态特征通过多通路的特征融合模块进行充分交融;多模态decoder模块,基于transformer的解码结构,输出带有用户特定意图的泊车车位输出。本发明引入文本信息表征用户特定的泊车意图,通过文本信息和图像信息的交互融合,为用户搜索到带有特定用户意图的最佳推荐车位。