摘要
本申请公开了一种基于改进LCS算法的文档对比方法,涉及数据处理领域,包括:接收用户上传的N个待对比文档;将N个文档分为N组,每组包含一个主文档和N‑1个副文档;设置最小公共子序列长度阈值L0;对于每个分组,构建虚拟二维数组,以主文档的字符数为行数,以副文档的字符数为列数,采用稀疏矩阵存储,仅记录匹配的字符位置;从虚拟二维数组的最后一行最后一列的元素开始,沿二维数组的主对角线方向,逐行向第一行第一列的元素遍历,记录连续匹配字符的内容、在主文档和副文档中的起始位置和结束位置;针对现有技术中烟草采购文件对比效率低,本申请引入了文档分组、多线程并行对比、聚类合并等优化策略等,提高了比对效率。