基于数据湖的推荐系统数据处理方法、装置及存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于数据湖的推荐系统数据处理方法、装置及存储介质
申请号:CN202411551835
申请日期:2024-11-01
公开号:CN119065613A
公开日期:2024-12-03
类型:发明专利
摘要
本发明提供了一种基于数据湖的推荐系统数据处理方法、装置及存储介质。将不同模块的特征数据进行分类,然后根据所述特征数据的实时性需求,将特征数据细分为短期有效类别以及长期有效类别,再将所述长期有效特征采用永久存储列簇以保证数据完整性,而短期有效特征则分配至定时过期列簇,从而可以解决推荐系统特征数据的高效存储与访问。本发明结合了Flink、Lindorm、Paimon的协同作用,构建了完整的数据处理与分析流程,实现特征的时效性与数据的深度利用,为推荐系统的持续优化提供坚实的技术基础。得益于链路的时效性,本发明可有效解决约10%的特征穿越问题,3%的重复样本问题,使用更精准的样本进行训练后,线上用户的使用率提升了2%,留存提升0.8%。
技术关键词
推荐系统 数据处理方法 机器学习模型 训练特征 异常数据 分区策略 可读存储介质 样本 数据处理装置 时效性 生成标签 离线 队列 处理器 归属地 消息 存储器 计算机