基于多模态实体对齐的多图像处理方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于多模态实体对齐的多图像处理方法
申请号:CN202510583473
申请日期:2025-05-07
公开号:CN120105353A
公开日期:2025-06-06
类型:发明专利
摘要
本发明属于图像处理技术领域,公开了基于多模态实体对齐的多图像处理方法,包括以下步骤:获取多个图像;从外部知识库中检索实体的丰富语义信息;使用语义信息在多图像场景中为每个实体选择最具代表性的图像;对每个模态的原始输入进行编码;应用交叉扩散注意力在视觉和文本模态之间进行第一层融合,接着通过与结构化模态的第二层交互,最终使用对比损失对齐图像的实体表示;输出融合文本模态和视觉模态的多图像。本申请利用分层交互融合来增强多模态交互;通过整合外部属性值和上下文信息来增强实体文本表示;利用语义文本选择最具代表性的图像,从而最小化不相关图像的影响。
技术关键词
图像处理方法 实体 注意力 语义 图像嵌入 视觉 跨模态 交互特征 矩阵 结构编码器 融合特征 图像特征向量 多模态交互 图谱 定义 文本编码器
系统为您推荐了相关专利信息
门控循环神经网络 注意力机制 矿热炉电极长度 神经网络单元 归一化模块
映射表数据 存储器管理方法 芯片 存储器控制器 阵列
规划算法 动态频谱分配 智能规划方法 时序 电磁
激光雷达 多任务 编码器 上采样 序列特征
手语识别方法 注意力机制 重构 矩阵 高通滤波器