摘要
本发明属于视频处理技术领域,具体为基于检索增强的第一视角视频描述系统。本发明包括:跨视角检索模块、视频编码器、跨模态文本解码器;跨视角检索模块通过构建的第一视角与第三视角视频配对数据,对齐第一视角与第三视角的视觉与文本特征,实现第一视角跨模态、跨视角检索第三视角视频数据辅助第一视角视频描述生成。视频编码器将视频进行时空协同特征提取,通过特征压缩采样器将视频特征降维;跨模态文本解码器采用大语言模型结合跨模态注意力层,将输入文本不断聚焦视觉模态信息实现跨模态信息交互,输出第一视角视频描述。本发明利用第三视角的视频与文本信息,在仅使用极少量第三视角数据作为辅助,可显著提升第一视角视频描述准确率。