摘要
本发明涉及文件自动化处理技术领域,尤其涉及基于人工智能模型和RAG的文件识别处理系统,包括以下模块:文件图像预处理模块,用于接收传真件、扫描件或电子文档,并通过去噪、角度校正及二值化处理,将输入文档转换为标准化图像;文件分类模块,基于卷积神经网络对标准化图像进行特征提取并将文件自动分类为表格类或文章类;文章类预处理模块,用于将分类为文章类的文档图像进行灰度化、二值化及文本行分割。本发明中,通过卷积神经网络、Transformer OCR及大语言模型的多层AI架构,结合检索增强生成技术,实现文档从接收、预处理、分类、OCR识别、关键信息抽取到自动化路由的全流程智能化处理。