基于检索增强的第一视角视频描述系统

申请号：CN202411111999

申请日期：2024-08-14

公开号：CN119226567A

公开日期：2024-12-31

类型：发明专利

摘要

本发明属于视频处理技术领域，具体为基于检索增强的第一视角视频描述系统。本发明包括：跨视角检索模块、视频编码器、跨模态文本解码器；跨视角检索模块通过构建的第一视角与第三视角视频配对数据，对齐第一视角与第三视角的视觉与文本特征，实现第一视角跨模态、跨视角检索第三视角视频数据辅助第一视角视频描述生成。视频编码器将视频进行时空协同特征提取，通过特征压缩采样器将视频特征降维；跨模态文本解码器采用大语言模型结合跨模态注意力层，将输入文本不断聚焦视觉模态信息实现跨模态信息交互，输出第一视角视频描述。本发明利用第三视角的视频与文本信息，在仅使用极少量第三视角数据作为辅助，可显著提升第一视角视频描述准确率。

技术关键词

视角视觉特征提取跨模态文本编码器视频编码器视频特征提取采样器解码器生成流水线数据代表大语言模型样本交叉注意力机制模块

系统为您推荐了相关专利信息

基于文生图模型的自动化漫画生成方法及系统

条件生成对抗网络文本编码器语义空间结构姿势控制

一种零样本文本驱动视频编辑的全局局部帧联合建模方法

联合建模方法视频帧特征注意力视频编辑方法文本编码器

一种基于多视角析因分析的水系统鲁棒性优化方法

鲁棒性优化方法矩阵情景水平衡模型因子

智慧粮储监测系统

异构传感网络监测系统智能分析模块气体浓度传感器扩展卡尔曼滤波器

基于多模态大模型和可微三维渲染的三维隐写方法

信息解码器隐写方法三维模型多模态可微分渲染管线