摘要
本发明公开了一种云平台中基于深度学习的数据流实时处理方法,涉及数据流实时处理技术领域,通过实时负载监测与多维数据采集,利用深度学习算法提取并预测请求数量、推理时长及GPU/CPU利用率,生成全局负载值;采用多目标调度策略与强化学习,对模型重要度、资源使用及局部负载冲击进行综合评估,实现模型优先级排序和动态资源分配;通过冷启/热启管理与延迟评估函数,依据热启必要性判定函数,动态释放或预留GPU/CPU资源,降低模型切换带来的开销;构建共享权重库和分片加载机制,实现相似权重模块的统一管理和增量加载,可以显著提高系统吞吐量,优化响应时延,确保多租户、高并发场景下高效稳定运行。