跨模态检索方法、装置、电子设备及存储介质

申请号：CN202411602767

申请日期：2024-11-11

公开号：CN119597939A

公开日期：2025-03-11

类型：发明专利

摘要

本发明适用于人工智能技术领域，提供了一种跨模态检索方法、装置、电子设备及存储介质，该方法包括：通过图像编码器对图像模态进行编码，通过文本编码器对文本模态进行编码，生成高维空间的向量表示；将图像模态的向量和文本模态的向量输入到同一个共享自注意力层进行对齐，并分别通过各自的前馈网络层提取特征；通过交叉注意力机制，对图像模态的向量和文本模态的向量进行跨模态交叉融合处理，得到图像模态的跨模态表征向量和文本模态的跨模态表征向量；基于图像模态的跨模态表征向量和文本模态的跨模态表征向量，输出图像模态和文本模态的相似度。本发明能够提高跨模态检索精度。

技术关键词

跨模态检索方法交叉注意力机制文本编码器图像编码器教师 BERT模型交叉模块标签电子设备可读存储介质预训练模型人工智能技术检索装置