摘要
本发明涉及多模态提示学习技术领域,公开了一种基于注意力机制的跨层图像文本交互提示学习方法,包括获取文本数据和图像数据;构建跨层图像文本交互提示学习网络模型;利用词嵌入模块将文本数据转化为词向量;利用文本编码器网络对词向量和文本提示向量进行多层级的注意力编码,得到文本编码;利用跨层交互提示学习模块对文本提示向量采用多头注意力机制生成图像提示向量;利用图切分模块将图像数据转化为块特征图;利用图像编码器网络对块特征图和图像提示向量进行多层级的注意力编码,得到图像编码;利用多模态对比学习模块对文本编码和图像编码进行多模态对比学习。本发明能够进一步提升多模态学习执行任务的准确性。