基于检索增强的第一视角视频描述系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于检索增强的第一视角视频描述系统
申请号:CN202411111999
申请日期:2024-08-14
公开号:CN119226567A
公开日期:2024-12-31
类型:发明专利
摘要
本发明属于视频处理技术领域,具体为基于检索增强的第一视角视频描述系统。本发明包括:跨视角检索模块、视频编码器、跨模态文本解码器;跨视角检索模块通过构建的第一视角与第三视角视频配对数据,对齐第一视角与第三视角的视觉与文本特征,实现第一视角跨模态、跨视角检索第三视角视频数据辅助第一视角视频描述生成。视频编码器将视频进行时空协同特征提取,通过特征压缩采样器将视频特征降维;跨模态文本解码器采用大语言模型结合跨模态注意力层,将输入文本不断聚焦视觉模态信息实现跨模态信息交互,输出第一视角视频描述。本发明利用第三视角的视频与文本信息,在仅使用极少量第三视角数据作为辅助,可显著提升第一视角视频描述准确率。
技术关键词
视角 视觉特征提取 跨模态 文本编码器 视频编码器 视频特征提取 采样器 解码器 生成流水线 数据 代表 大语言模型 样本 交叉注意力机制 模块
系统为您推荐了相关专利信息
条件生成对抗网络 文本编码器 语义 空间结构 姿势控制
联合建模方法 视频帧特征 注意力 视频编辑方法 文本编码器
鲁棒性优化方法 矩阵 情景 水平衡模型 因子
异构传感网络 监测系统 智能分析模块 气体浓度传感器 扩展卡尔曼滤波器
信息解码器 隐写方法 三维模型 多模态 可微分渲染管线