摘要
本发明涉及数据挖掘技术领域,特别涉及一种基于相似样本的对比学习实体匹配方法及系统,对待匹配实体数据集中的待匹配实体进行序列化表示;将待匹配实体的序列化表示输入至实体匹配模型,利用实体匹配模型得到待匹配实体数据集中各实体对匹配结果,所述实体匹配模型为基于正实体对样本、负实体对样本和相似实体对样本并利用对比学习机制对模型进行训练,以使模型学习不同实体间的相似性和差异性,其中,所述相似实体对样本为实体对相似但不匹配的实体样本数据。本发明将相似但不匹配的实体作为相似样本,为对比学习过程提供更全面的高质量对比样本,通过对比学习学习正、负和相似样本三类样本实体对的相似性与差异性特征,提升实体匹配效果。