基于视觉语言模型的图像解释方法和装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于视觉语言模型的图像解释方法和装置
申请号:CN202511188183
申请日期:2025-08-25
公开号:CN120747670A
公开日期:2025-10-03
类型:发明专利
摘要
本申请涉及一种基于视觉语言模型的图像解释方法和装置。所述方法包括:根据样本图像的视觉标注和目标知识图谱确定样本推理指令;通过问答引擎,基于样本图像和样本推理指令生成样本图像的图像解释信息;基于样本图像、样本推理指令和样本图像的图像解释信息训练待训练视觉语言模型,确定目标视觉语言模型;通过目标视觉语言模型,根据目标图像和目标推理指令确定目标图像的图像解释信息。上述方案,统一模型训练数据集的数据格式,提高了数据集构建效率,节约了人力成本,同时能够使得训练出的视觉语言模型能够进行深层次的知识推理。
技术关键词
图像 样本 视觉 指令 图谱 自然语言 检测模型训练 标记 模型训练模块 实体 实例分割 标签 投影器 数据格式 处理器 计算机设备 可读存储介质 存储器