推理服务方法、处理装置、设备、存储介质和程序产品

申请号：CN202411920282

申请日期：2024-12-24

公开号：CN119862958A

公开日期：2025-04-22

类型：发明专利

摘要

本公开提供了一种推理服务方法、处理装置、设备、存储介质和程序产品，涉及人工智能技术领域。其中，大模型推理服务方法包括：监测所述多个解码节点的第一算力资源以及监测预填充节点与解码节点之间的迁移链路的性能指标；响应于大模型推理任务，将推理任务分配至多个预填充节点，生成对应的键值缓存KV Cache数据；基于第一算力资源和/或性能指标对KV Cache数据进行分片处理，得到KV Cache分片；向多个解码节点迁移KV Cache分片，以由多个解码节点基于多头并行注意力均衡机制和/或流水线并行均衡机制对KV Cache分片进行解码操作，得到推理结果。通过本公开的技术方案，能够提升KV Cache数据的迁移效率和迁移稳定性，结合均衡机制能够提升大模型推理任务的推理效率。

技术关键词

分片解码节点注意力链路流水线资源机制网络数据键值处理器服务装置人工智能技术计算机程序产品分支监测模块参数可读存储介质