OCR识别结果的校正方法、装置、设备以及计算机存储介质
申请号:CN202510780596
申请日期:2025-06-12
公开号:CN120766090A
公开日期:2025-10-10
类型:发明专利
摘要
本申请公开了OCR识别结果的校正方法、装置、设备以及计算机存储介质。所述校正方法包括:获取OCR识别后的待校正文本,待校正文本包括:OCR识别错误导致的乱码字符、字符混淆错误或语法错误中的一种;构建语义校正指令模板,语义校正指令模板包括:任务定义、规则定义以及格式约束目标;将待校正文本与语义校正指令模板输入大语言模型,并通过大语言模型输出校正后的文本结果,大语言模型为预训练语言模型。本申请能够针对OCR识别错误导致的乱码字符、字符混淆错误或语法错误进行精准校正,有效提升文本的准确性及可用性,为后续文本处理提供高质量基础数据;本申请可以适应多种不同格式文档及多语言混合文本场景,节约维护成本,同时提高校正效率。
技术关键词
大语言模型
校正方法
训练语言模型
语义
字符
定义
校正装置
段落结构
模板
计算机存储介质
格式
指令
文本校正
存储计算机程序
校正设备
字段
纠错
处理器