摘要
本发明公开了一种基于LLM的文档结构化自动处理方法及系统,涉及文档处理技术领域,包括步骤:S1、文档输入和预处理:去除无序文本中的特殊字符、统一编码格式,调整其语义密度;S2、去冗余和关键词提取:去除无序文本中的重复信息,并提取第一关键词;S3、语义抽取和结构化:根据第一关键词逐句解析无序文本,抽取每一个句子对应的主要意义和相关语义信息,得到抽取结果,包括同一个句子的第二关键词和句意;S4、语义栈构建和更新:根据抽取结果构建和更新语义栈,存储语义单元;一个语义单元对应同一个抽取结果;S5、结构化输出:将语义栈中的数据以预设格式输出。本发明适用于多领域、多类型的复杂无序文档的结构化处理。