摘要
本发明公开了一种混合专家模型的异步并行推理方法、系统、设备及介质,它们是相对应的方案,方案中:将专家并行中因全对全集合通信造成的GPU间计算和通信的同步进行解耦,允许模型计算与词元数据通信异步并行,以充分地对专家并行造成的数据通信开销进行掩盖,并消除同步等待开销;针对推理中专家冷热不均的现象,优先将热专家放置在GPU,将冷专家侧载在CPU,以释放出GPU显存空间,推理时可通过增大批尺寸提升GPU计算效率;通过动态选择最适合执行的计算单元与需要加载的冷专家,实现高效资源调度;总体而言,通过本发明可显著降低专家并行推理时通信开销和等待开销,同时提升GPU的计算效率,优化推理过程中的整体吞吐表现。