基于人工智能的文档处理方法、装置、设备及介质

申请号：CN202510919774

申请日期：2025-07-03

公开号：CN120766302A

公开日期：2025-10-10

类型：发明专利

摘要

本发明涉及人工智能、金融科技和医疗科技技术领域，提供了一种基于人工智能的文档处理方法、装置、设备及介质，该方法将文档图片输入多模态大模型，进行元素级分割和分类，得到各类元素的边界框和类别标签；按照各类元素的边界框，从文档图片中截取各类元素的独立子图；将各类元素的独立子图，输入元素的类别标签对应的处理模型，以提取独立子图中的信息；将提取出的信息进行结构化整合，得到文档图片的信息。利用大模型对文档图片进行元素级分割与分类，然后利用各类型元素涉及的处理模型，对各类元素的独立子图进行针对性信息提取，从而提升复杂文档的信息提取精度，在对多个独立子图的信息进行整合后，得到完整准确的文档信息。

技术关键词

元素图片多模态标签文本识别模型输入数学公式医疗科技技术表格长短期记忆网络光学字符识别符号版面结构印章文本编码器可读存储介质处理器注意力机制图像增强模块

系统为您推荐了相关专利信息

一种危化品智能管理终端、管理方法及智能实验室

智能管理终端电磁锁驱动灯光控制器危化品智能智能实验室

一种基于多源数据融合的智能营销文档生成装置及方法

文档生成装置案例库语义模块参数

一种隧道超前地质预报风险预警方法、系统、终端及存储介质

隧道超前地质预报地质灾害风险评估风险预警方法不良地质体三维模型

一种基于数字孪生的智能制造协同决策方法

数字孪生模型累计偏差决策方法矩阵工控机

一种基于均匀线阵信号协方差矩阵的幅相误差自校正方法

协方差矩阵噪声误差加权最小二乘校正方法传感器阵列