分布式大数据的聚类方法、装置、设备、存储介质及产品
申请号:CN202411049919
申请日期:2024-08-01
公开号:CN119046712A
公开日期:2024-11-29
类型:发明专利
摘要
本发明实施例公开了一种分布式大数据的聚类方法、装置、设备、存储介质及产品。该方法包括:通过计算节点对本地数据子集进行局部聚类,得到局部聚类结果,并基于局部聚类结果对本地数据子集进行抽样,得到局部样本数据;局部样本数据包括每个离群点以及从局部聚类结果的每个局部类中抽取的至少一个数据;通过中心节点接收各个计算节点传输的局部样本数据,聚合得到全局样本数据,并对全局样本数据进行样本聚类,得到样本聚类结果,再将样本聚类结果传输回各个计算节点;通过计算节点根据样本聚类结果对局部聚类结果的每个局部类的聚类标签进行更新。从而有效的减少了计算开销和通信成本,加快了收敛速度,同时还具有通用性。
技术关键词
分布式大数据
聚类
样本
节点
分布式文件管理系统
离群点
标签
处理器
计算机程序产品
算法
策略
计算机设备
可读存储介质
模块
存储器
密度