摘要
本申请公开了一种多模态文档结构化处理方法、装置、设备及介质。针对从待处理文档中提取到的不同其他数据类型,可以根据预设的该其他数据类型对应的结构化处理步骤,对该其他数据类型的数据进行结构化处理,从而实现深度挖掘该其他数据类型的数据所携带的信息,以及多模态数据的有效整合与利用,将待处理文档中的各其他数据类型的数据所携带的信息以统一的、结构化的形式呈现出来。对于图像数据,通过区分文字图像类型和非文字图像类型并采取不同的处理方式,使得对图像数据中携带的信息提取更加精准。对于表格数据,通过获取表头名称、行名称,并为每个数据项生成描述性文本,将表格数据从简单的数值矩阵转化为具有丰富语义的信息集合。