知识文档去重方法和知识文档去重装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
知识文档去重方法和知识文档去重装置
申请号:CN202510567973
申请日期:2025-04-30
公开号:CN120687446A
公开日期:2025-09-23
类型:发明专利
摘要
本申请涉及一种知识文档去重方法和知识文档去重装置,其中,该知识文档去重方法,包括:在接收到预设的知识文档调用请求的情况下,获取数据预处理后的文本段落集;根据子句语义相似度、交集词比例以及相似词比例,在文本段落集中属于不同知识文档的各子句之间进行子句相似度计算,得到子句综合相似度;根据子句综合相似度,结合段落语义相似度,确定文本段落集中属于不同知识文档的各文本段落单元之间的段落综合相似度;根据段落综合相似度,确定不同知识文档的去重结果。其能够兼容更为细粒度的识别逻辑、提升对关键词的识别效果、最终提高文本去重的准确度。
技术关键词
文本段落 去重方法 去重装置 大语言模型 问答模型 关键词 语义向量 逻辑回归模型 模块 聚类 样本 关系 在线 离线 数据