摘要
本发明提供了一种基于数据湖的推荐系统数据处理方法、装置及存储介质。将不同模块的特征数据进行分类,然后根据所述特征数据的实时性需求,将特征数据细分为短期有效类别以及长期有效类别,再将所述长期有效特征采用永久存储列簇以保证数据完整性,而短期有效特征则分配至定时过期列簇,从而可以解决推荐系统特征数据的高效存储与访问。本发明结合了Flink、Lindorm、Paimon的协同作用,构建了完整的数据处理与分析流程,实现特征的时效性与数据的深度利用,为推荐系统的持续优化提供坚实的技术基础。得益于链路的时效性,本发明可有效解决约10%的特征穿越问题,3%的重复样本问题,使用更精准的样本进行训练后,线上用户的使用率提升了2%,留存提升0.8%。