用于视频理解的指令感知记忆装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
用于视频理解的指令感知记忆装置
申请号:CN202510953397
申请日期:2025-07-10
公开号:CN120763358A
公开日期:2025-10-10
类型:发明专利
摘要
本发明提供了一种用于视频理解的指令感知记忆装置,包括:包括文本‑视觉记忆库模块和交叉注意力模块;所述文本‑视觉记忆库模块,用于存储和检索跨模态特征,支持视频分析,所述文本‑视觉记忆库模块与多模态大语言模型集成,通过增量式处理视频数据,克服内存与上下文长度的限制;所述交叉注意力模块,用于融合文本和视觉特征,生成跨模态表示。通过引入文本‑视觉记忆库和交叉注意力模块,实现了视频与文本信息的早期融合与长期记忆管理。能够有效捕捉视频中的细粒度时间依赖关系,提升模型在长视频理解任务中的性能,从而达到提高视频理解的准确性和效率的目的。
技术关键词
记忆装置 视觉特征 大语言模型 文本 交叉注意力机制 跨模态 多模态融合机制 指令 对齐模块 视频分析 模态特征 生成自然语言 时间序列特征 记忆管理 多模态信息 解码机制