摘要
本申请涉及自然语言处理技术领域,尤其涉及一种基于序列到编辑模型的阿拉伯语语法纠错方法,包括在训练所述序列到编辑模型过程中,将训练样本中包含语法错误的阿拉伯语源序列与已纠正的目标序列进行对齐,构建源序列中每个token与目标序列中相应子序列的映射关系;对比源token与目标token或子序列,确定语句错误类型;序列到编辑模型用于根据输入的待纠错语句对应的所述语句错误类型,从预定义的标签集中选取对应标签进行标记,生成编辑标签序列,用于表征将所述待纠错语句从源token编辑为目标子序列的纠错过程。本申请针对阿拉伯语语法纠错构建序列到编辑框架,预设特制标签与算法,能够精细处理错误,提升纠错效率、精度与结果可解释性。