摘要
本发明涉及人工智能、金融科技和医疗科技技术领域,提供了一种基于人工智能的文档处理方法、装置、设备及介质,该方法将文档图片输入多模态大模型,进行元素级分割和分类,得到各类元素的边界框和类别标签;按照各类元素的边界框,从文档图片中截取各类元素的独立子图;将各类元素的独立子图,输入元素的类别标签对应的处理模型,以提取独立子图中的信息;将提取出的信息进行结构化整合,得到文档图片的信息。利用大模型对文档图片进行元素级分割与分类,然后利用各类型元素涉及的处理模型,对各类元素的独立子图进行针对性信息提取,从而提升复杂文档的信息提取精度,在对多个独立子图的信息进行整合后,得到完整准确的文档信息。