摘要
本发明公开了一种多模态非结构化内容关联检索方法,包括对多模态数据进行特征提取,得到不同模态下数据的特征;将多模态特征进行对齐,得到多模态对齐特征;对多模态对齐特征进行随机掩码,送入跨模态自注意力模型融合,得到掩码后的多模态融合特征向量;提取每一个图像的增强特征;通过交叉注意力网络对增强特征进行处理,得到不同图像之间的余弦相似度;进行图像特征的匹配,得到图像的关联结果;通过输入检索文本到语言大模型中得到文本特征,通过多模态数据嵌入空间,使用余弦相似度匹配出最相似的图像,得到图像的检索结果。本发明提高了多模态特征融合的准确性和稳定性,提高了图像检索的准确性和效率。