一种基于动态微批次调度的分布式大模型推理优化方法和装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于动态微批次调度的分布式大模型推理优化方法和装置
申请号:CN202510966637
申请日期:2025-07-14
公开号:CN120723311A
公开日期:2025-09-30
类型:发明专利
摘要
一种基于动态微批次调度的分布式大模型推理优化方法和装置,其方法包括:(1)系统初始化,建立大模型分布式推理流水线;(2)评估各节点计算能力和网络状态并汇总到头节点;(3)根据请求分布情况、各节点算力及网络状态,确定Micro‑Batch数量及每个Micro‑Batch的调度配额;(4)采用Continuous Batching及Chunked Prefill策略依次调度Micro‑Batch并开始执行。本发明通过动态调整Micro‑Batch的数量,有效解决了分布式大模型推理系统中严重的流水线空泡问题,显著提高GPU利用率及系统吞吐量,同时对大模型推理领域的TTFT(首token时延)和TPOT(token间时延)等关键指标也有提升。本发明具有良好的适应性,能在不同硬件设备、网络条件和请求负载下自适应调整动态调度策略,适用于不同分布式大模型部署场景,具有广泛的应用价值。
技术关键词
节点 流水线 动态 时延 调度算法 策略 网络 系统吞吐量 推理装置 推理系统 配额 阶段 硬件设备 处理器 可读存储介质 存储器 程序 分块 队列 计算机