一种神经逻辑推理辅助的视觉语言可解释学习方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种神经逻辑推理辅助的视觉语言可解释学习方法及系统
申请号:CN202510427320
申请日期:2025-04-07
公开号:CN120449963A
公开日期:2025-08-08
类型:发明专利
摘要
本发明涉及多模态模型推理技术领域,特别涉及一种神经逻辑推理辅助的视觉语言可解释学习方法及系统。方法包括:对图像‑文本对进行向量表示;对一阶逻辑进行关系矩阵表示;基于一阶逻辑和图像‑文本对的表示,进行逻辑组合和多跳推理;基于逻辑组合和多跳推理,构建与视觉语言模型相融合的逻辑推理可微注意力网络。本发明通过设计了LogicVLM模型,能够将神经归纳学习与逻辑推理相结合的可微框架。进而可以从输入中的视觉文本语义概念学习一阶逻辑和逻辑组合,构建出树状结构的路径执行多跳推理,完成复杂的视觉语言推理任务。在实验中,与传统视觉语言模型相比,本发明的模型训练和推理速度基本保持不变,并在各项任务上取得了显著的提升。
技术关键词
逻辑 学习方法 视觉 文本 注意力 图像 学习系统 树状结构 计算机可读指令 学习设备 语句 矩阵 推理技术 关系 网络 实体 堆叠结构 模块 处理器 可读存储介质