推理服务方法、处理装置、设备、存储介质和程序产品

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
推理服务方法、处理装置、设备、存储介质和程序产品
申请号:CN202411920282
申请日期:2024-12-24
公开号:CN119862958A
公开日期:2025-04-22
类型:发明专利
摘要
本公开提供了一种推理服务方法、处理装置、设备、存储介质和程序产品,涉及人工智能技术领域。其中,大模型推理服务方法包括:监测所述多个解码节点的第一算力资源以及监测预填充节点与解码节点之间的迁移链路的性能指标;响应于大模型推理任务,将推理任务分配至多个预填充节点,生成对应的键值缓存KV Cache数据;基于第一算力资源和/或性能指标对KV Cache数据进行分片处理,得到KV Cache分片;向多个解码节点迁移KV Cache分片,以由多个解码节点基于多头并行注意力均衡机制和/或流水线并行均衡机制对KV Cache分片进行解码操作,得到推理结果。通过本公开的技术方案,能够提升KV Cache数据的迁移效率和迁移稳定性,结合均衡机制能够提升大模型推理任务的推理效率。
技术关键词
分片 解码 节点 注意力 链路 流水线 资源 机制 网络 数据 键值 处理器 服务装置 人工智能技术 计算机程序产品 分支 监测模块 参数 可读存储介质