基于大模型融合精细化场景图思维链的图像详细描述方法

申请号：CN202410915466

申请日期：2024-07-09

公开号：CN118865388B

公开日期：2025-05-09

类型：发明专利

摘要

本发明涉及基于大模型融合精细化场景图思维链的图像详细描述方法，针对待描述复杂图像，先获得图像的标题，其次通过主体提取模块识别图像中的主体对象，根据其基本信息构造初步的简单场景图，获得主体对象的详细描述内容，分析其属性并加入场景图中，获得完备的主体场景图，并向其中添加背景信息。再通过对象富化模块获得与主体对象强关联的非主体对象的基本信息，以此获得最终的精细化场景图。将图像、图像标题、精细化场景图和提示词模板结合，通过多模态大语言模型获得最终的详细图像描述。本发明实现了对复杂图像的详细描述，有效地减少了在图像描述任务中详细描述图像内容时常见的幻觉现象的发生，提高了描述的丰富性和可靠性。

技术关键词

对象图像场景大语言模型多模态模块浮点数关键词模板坐标焦点节点关系