一种多模态视频数据与文本数据混合融合方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种多模态视频数据与文本数据混合融合方法及系统
申请号:CN202510997238
申请日期:2025-07-18
公开号:CN120850224A
公开日期:2025-10-28
类型:发明专利
摘要
本发明属于视频特征解析技术领域,尤其涉及一种多模态视频数据与文本数据混合融合方法及系统,包括:基础模态融合与语义引导的多模态融合;使用预训练的视觉特征编码器提取:视觉数据1、视觉数据2、视觉数据3;通过文本特征编码器提取:文本数据;使用彩色视频数据作为视觉数据1,深度数据作为视觉数据2,红外数据作为视觉数据3,这三类视觉数据在基础模态融合阶段将经过跨模态信息交互机制实现信息互补;随后,系统进入语义引导的多模态融合阶段,在这个阶段通过构建语义注意力权重,将文本语义特征动态映射到视觉特征空间,以此指导多模态视觉特征的融合过程。
技术关键词
融合方法 多路径特征融合 视觉特征 文本 多模态 融合特征 彩色视频数据 信息交互机制 编码器 特征提取模块 语义注意力 注意力参数 语义特征 通道注意力机制