一种基于大模型的冗余物料数据清洗系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于大模型的冗余物料数据清洗系统
申请号:CN202511094238
申请日期:2025-08-06
公开号:CN121029742A
公开日期:2025-11-28
类型:发明专利
摘要
本发明提供一种基于大模型的冗余物料数据清洗系统,属于工业智能与数据治理技术领域,本发明利用预训练大语言模型的深度语义理解能力,实现端到端的语义清洗。它将物料描述转化为高维语义向量,在统一向量空间中精准计算语义相似度,超越字面差异识别本质相同的物料,并通过智能聚类自动归并冗余项。该方法不仅能深度捕捉核心属性间的语义关联、有效忽略噪声,还具备融合结构化属性进行更鲁棒判断的潜力,显著提升清洗精度与效率,克服传统流水线方法的固有局限。
技术关键词
数据清洗系统 子模块 冗余 统一语义理解 蒙特卡洛树搜索 时空注意力机制 在线增量学习 异构信息网络 数据治理技术 知识蒸馏技术 预训练语言模型 决策 流水线方法 多粒度特征 噪声模式 微调技术 清洗策略 噪声识别