基于轻量级的文档关键信息提取方法、装置、设备及存储介质
申请号:CN202510270422
申请日期:2025-03-07
公开号:CN120164225B
公开日期:2025-11-28
类型:发明专利
摘要
本发明提供一种基于轻量级的文档关键信息提取方法、装置、设备及存储介质,涉及计算机技术领域。该方法包括:获取初始文档的初始文档图像,对初始文档图像进行预处理,确定预处理文档图像;将预处理文档图像输入训练好的文本检测分类模型进行处理,输出文本位置信息和对应的文本分类信息;基于文本位置信息和文本分类信息,对初始文档进行文本识别处理,得到与初始文档对应的目标文本内容;其中,所述预处理至少包括图像形式处理和图像分类处理。本发明提供的实施例用以解决现有技术中在提取文档关键信息时效率低下,计算成本较高的缺陷,实现通过文本检测分类模型提前确定要识别的文档文本信息,可以高效率、低成本的提取文档的目标文本内容。
技术关键词
关键信息提取方法
检测分类模型
联合损失函数
轻量级神经网络
图像训练样本
分类特征
文本识别
融合特征
多层次特征
检测损失
非暂态计算机可读存储介质
信息提取装置
处理器
计算机程序产品
分支
存储器
数值
高效率