摘要
本发明适用于人工智能技术领域,提供了一种跨模态检索方法、装置、电子设备及存储介质,该方法包括:通过图像编码器对图像模态进行编码,通过文本编码器对文本模态进行编码,生成高维空间的向量表示;将图像模态的向量和文本模态的向量输入到同一个共享自注意力层进行对齐,并分别通过各自的前馈网络层提取特征;通过交叉注意力机制,对图像模态的向量和文本模态的向量进行跨模态交叉融合处理,得到图像模态的跨模态表征向量和文本模态的跨模态表征向量;基于图像模态的跨模态表征向量和文本模态的跨模态表征向量,输出图像模态和文本模态的相似度。本发明能够提高跨模态检索精度。