一种文档理解方法及相关产品

申请号：CN202510796218

申请日期：2025-06-13

公开号：CN120705347A

公开日期：2025-09-26

类型：发明专利

摘要

本申请公开了一种文档理解方法及相关产品，该方法包括：获取待理解文档对应的图像和待查询问题；对所述待理解文档对应的图像进行处理，得到所述待理解文档对应的图像的多个候选框；将所述多个候选框和所述待理解文档对应的图像进行叠加处理，得到视觉提示图像；采用多模态大语言模型基于所述视觉提示图像，确定所述待查询问题对应的关键框，并基于所述关键框，得到查询结果；所述关键框表征满足预设条件的候选框。本申请将处理文档时“粗到细”的推理过程融入到多模态大语言模型中，使多模态大语言模型能够更精准地响应用户的指代性或结构化问题，提高多模态大语言模型在文档理解领域的准确性。

技术关键词

大语言模型图像视觉多模态答案数据掩码技术处理器计算机程序产品分析工具计算机设备可读存储介质模块存储器参数布局