基于离散空间多模态融合的目标识别方法、装置、设备及介质
申请号:CN202510532954
申请日期:2025-04-25
公开号:CN120524171A
公开日期:2025-08-22
类型:发明专利
摘要
本发明涉及人工智能领域,提供一种基于离散空间多模态融合的目标识别方法、装置、设备及介质,获取待识别模态数据;将待识别模态数据输入至目标识别模型中,得到目标识别模型输出的目标识别结果;其中,目标识别模型是根据各模态训练数据训练待训练目标识别模型中对应模态的子模型,基于对应训练结果更新对应模态训练后的子模型的码本,并根据基于各模态训练数据构建的对齐模态训练样本,结合跨模态对比学习和码词匹配约束,对更新码本后的各模态对应子模型进行训练得到的,码本用于表征对应子模型编码器的编码规则。本发明能够实现多模态数据在统一离散空间中的高效融合,增强跨模态表示的细粒度表达能力和泛化能力。
技术关键词
编码器
识别方法
多模态
跨模态
索引
译码器
特征值
序列
教师
学生
编码规则
非暂态计算机可读存储介质
语义
交叉注意力机制
数据获取模块
处理器
误差