摘要
本申请公开了一种文档理解方法及相关产品,该方法包括:获取待理解文档对应的图像和待查询问题;对所述待理解文档对应的图像进行处理,得到所述待理解文档对应的图像的多个候选框;将所述多个候选框和所述待理解文档对应的图像进行叠加处理,得到视觉提示图像;采用多模态大语言模型基于所述视觉提示图像,确定所述待查询问题对应的关键框,并基于所述关键框,得到查询结果;所述关键框表征满足预设条件的候选框。本申请将处理文档时“粗到细”的推理过程融入到多模态大语言模型中,使多模态大语言模型能够更精准地响应用户的指代性或结构化问题,提高多模态大语言模型在文档理解领域的准确性。