混合专家模型的异步并行推理方法、系统、设备及介质

申请号：CN202511509524

申请日期：2025-10-22

公开号：CN120996207A

公开日期：2025-11-21

类型：发明专利

摘要

本发明公开了一种混合专家模型的异步并行推理方法、系统、设备及介质，它们是相对应的方案，方案中：将专家并行中因全对全集合通信造成的GPU间计算和通信的同步进行解耦，允许模型计算与词元数据通信异步并行，以充分地对专家并行造成的数据通信开销进行掩盖，并消除同步等待开销；针对推理中专家冷热不均的现象，优先将热专家放置在GPU，将冷专家侧载在CPU，以释放出GPU显存空间，推理时可通过增大批尺寸提升GPU计算效率；通过动态选择最适合执行的计算单元与需要加载的冷专家，实现高效资源调度；总体而言，通过本发明可显著降低专家并行推理时通信开销和等待开销，同时提升GPU的计算效率，优化推理过程中的整体吞吐表现。

技术关键词

推理系统并行推理方法注意力数据通信点对点内存通信线指令图形处理器阶段多线程执行矩阵乘法中央处理器进程发送方尺寸接收方设备架构字典