混合专家模型的异步并行推理方法、系统、设备及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
混合专家模型的异步并行推理方法、系统、设备及介质
申请号:CN202511509524
申请日期:2025-10-22
公开号:CN120996207A
公开日期:2025-11-21
类型:发明专利
摘要
本发明公开了一种混合专家模型的异步并行推理方法、系统、设备及介质,它们是相对应的方案,方案中:将专家并行中因全对全集合通信造成的GPU间计算和通信的同步进行解耦,允许模型计算与词元数据通信异步并行,以充分地对专家并行造成的数据通信开销进行掩盖,并消除同步等待开销;针对推理中专家冷热不均的现象,优先将热专家放置在GPU,将冷专家侧载在CPU,以释放出GPU显存空间,推理时可通过增大批尺寸提升GPU计算效率;通过动态选择最适合执行的计算单元与需要加载的冷专家,实现高效资源调度;总体而言,通过本发明可显著降低专家并行推理时通信开销和等待开销,同时提升GPU的计算效率,优化推理过程中的整体吞吐表现。
技术关键词
推理系统 并行推理方法 注意力 数据通信 点对点 内存 通信线 指令 图形处理器 阶段 多线程 执行矩阵乘法 中央处理器 进程 发送方 尺寸 接收方 设备架构 字典