摘要
本公开提供了一种推理服务方法、处理装置、设备、存储介质和程序产品,涉及人工智能技术领域。其中,大模型推理服务方法包括:监测所述多个解码节点的第一算力资源以及监测预填充节点与解码节点之间的迁移链路的性能指标;响应于大模型推理任务,将推理任务分配至多个预填充节点,生成对应的键值缓存KV Cache数据;基于第一算力资源和/或性能指标对KV Cache数据进行分片处理,得到KV Cache分片;向多个解码节点迁移KV Cache分片,以由多个解码节点基于多头并行注意力均衡机制和/或流水线并行均衡机制对KV Cache分片进行解码操作,得到推理结果。通过本公开的技术方案,能够提升KV Cache数据的迁移效率和迁移稳定性,结合均衡机制能够提升大模型推理任务的推理效率。