一种基于注意力机制的跨层图像文本交互提示学习方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于注意力机制的跨层图像文本交互提示学习方法
申请号:CN202411816387
申请日期:2024-12-11
公开号:CN119783020A
公开日期:2025-04-08
类型:发明专利
摘要
本发明涉及多模态提示学习技术领域,公开了一种基于注意力机制的跨层图像文本交互提示学习方法,包括获取文本数据和图像数据;构建跨层图像文本交互提示学习网络模型;利用词嵌入模块将文本数据转化为词向量;利用文本编码器网络对词向量和文本提示向量进行多层级的注意力编码,得到文本编码;利用跨层交互提示学习模块对文本提示向量采用多头注意力机制生成图像提示向量;利用图切分模块将图像数据转化为块特征图;利用图像编码器网络对块特征图和图像提示向量进行多层级的注意力编码,得到图像编码;利用多模态对比学习模块对文本编码和图像编码进行多模态对比学习。本发明能够进一步提升多模态学习执行任务的准确性。
技术关键词
多头注意力机制 学习方法 文本编码器 图像编码器 多模态 网络 多层感知机 层级 模块 数据 线性 序列 图像块 层叠
系统为您推荐了相关专利信息
虚拟人物形象 心理评估方法 语音识别模型 语音生成模型 音频
车辆水箱 图像 文本检测模型 色彩 识别方法
数据集构建方法 服装 多模态特征 视觉表现形式 挖掘方法
生成方法 模版 图像 数据 车辆重识别技术
强度特征向量 定量分析系统 超声成像技术 超声数据 血管