7B扩散语言模型单样例1000+ tokens/s!上交大联合华为推出LoPA
7B扩散语言模型单样例1000+ tokens/s!上交大联合华为推出LoPA,时长 00:20 视频 1:单样例推理速度对比:SGLang 部署的 Qwen3-8B (NVIDIA) vs. LoPA-Dist 部署 (NVIDIA & Ascend)(注:NVIDIA 平台
来自主题: AI技术研报
7531 点击 2026-01-01 10:09
,时长 00:20 视频 1:单样例推理速度对比:SGLang 部署的 Qwen3-8B (NVIDIA) vs. LoPA-Dist 部署 (NVIDIA & Ascend)(注:NVIDIA 平台
该算法现已在GitHub上开源,相关论文公布在ARXIV。近日,蚂蚁集团开源了一套新算法,可帮助大模型在推理时,提速2至6倍,引起业内关注。