一种基于多模态特征融合的视觉问答方法及其模型
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
AITNT公众号
AITNT APP
AITNT交流群
搜索
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI专利库
寻求报道
一种基于多模态特征融合的视觉问答方法及其模型
申请号:
CN202411900860
申请日期:
2024-12-23
公开号:
CN119832535A
公开日期:
2025-04-15
类型:
发明专利
摘要
本发明提出一种多模态特征融合的视觉问答方法,通过生成不同分辨率的图像,多尺度信息挖掘模块能够有效地提取不同尺度下的图像特征,从而提升图像理解的精度并通过多模态特征引导融合策略,将图像和文本特征高效结合,利用自注意力和交叉机制在特征层次深度交互,生成具有语义与视觉信息融合的特征表示,利用多模态特征融合后之后的数据特征,通过全连接神经网络和文本输入到大模型中获得视觉问答的结果并结合数据集中的答案训练预测结果。本发明相较于现有的方法具有稳定性好、准确率高等优点。
技术关键词
多模态特征融合
视觉问答方法
文本特征向量
图像特征向量
注意力
多尺度信息
融合策略
高分辨率图片
网络模型结构
BERT模型
前馈神经网络
答案
双线性插值
中间层