摘要
本发明公开了一种应用于AI语言大模型的数据集去重方法,包括以下步骤:获取用于训练AI语言大模型的数据集中的文本数据,并进行预处理,获得预处理后的文本数据;对预处理后的文本数据进行文本特征判断,确定所述文本数据的数据类型;所述数据类型包括:预训练数据集、问答数据集和偏好数据集;对确定数据类型的文本数据进行关键字统一及标准化字段映射,并进行对应的数据去重;所述数据去重包括:预训练数据去重、问答数据去重和偏好数据去重。该方法通过高效的预处理、特征判断和关键字统一映射,并针对不同数据类型选择对应的数据去重,其有效提升了AI语言大模型训练数据集的质量,进一步增强了AI语言大模型对自然语言的处理能力。