一种多模态视频数据与文本数据混合融合方法及系统

申请号：CN202510997238

申请日期：2025-07-18

公开号：CN120850224A

公开日期：2025-10-28

类型：发明专利

摘要

本发明属于视频特征解析技术领域，尤其涉及一种多模态视频数据与文本数据混合融合方法及系统，包括：基础模态融合与语义引导的多模态融合；使用预训练的视觉特征编码器提取:视觉数据1、视觉数据2、视觉数据3；通过文本特征编码器提取:文本数据；使用彩色视频数据作为视觉数据1，深度数据作为视觉数据2，红外数据作为视觉数据3，这三类视觉数据在基础模态融合阶段将经过跨模态信息交互机制实现信息互补；随后，系统进入语义引导的多模态融合阶段，在这个阶段通过构建语义注意力权重，将文本语义特征动态映射到视觉特征空间，以此指导多模态视觉特征的融合过程。

技术关键词

融合方法多路径特征融合视觉特征文本多模态融合特征彩色视频数据信息交互机制编码器特征提取模块语义注意力注意力参数语义特征通道注意力机制