下一代MoE架构登场！伴生专家系统用“大小核”重写MoE规则

7519点击 2025-08-18 16:59

❝一句话概括，传统MoE就像公司派固定人数团队，Grove MoE则像智能调度系统，小项目派少数人，大项目集中火力，效率与效果兼得。（原论文题目见文末，点击阅读原文可直接跳转至原文链接，Published on arXiv on 11 Aug 25, by Inclusion AI, The Chinese University of Hong Kong, Zhejiang University）

亲爱的读者们，沈公子的公众号agent🤖和base model训练升级到v3.0，今后公众号文章行文会更流畅，处理公式和符号也完全达到人类专家水准，会大幅减少出现错乱和显示异常的情况，提升阅读体验。enjoying :)

第一阶段：识别核心概念

Motivation分析

当前，混合专家（MoE）模型是构建超大规模语言模型（如GPT-4、Llama 4）的主流技术。它的核心思想是“人多力量大，但不用所有人都上班”。模型里有很多“专家”（即小型的神经网络模块），对于每一个输入（比如一个词），一个“路由器”（Router）会智能地选择几个最相关的专家来处理它，而不是调动整个庞大的模型。这大大节省了计算资源。

然而，传统MoE架构存在一个显著的痛点：计算资源分配的“僵化”。无论输入的任务是简单（如“你好”）还是复杂（如一段需要深度推理的物理题），模型都会激活固定数量、同样大小的专家。这就像一个公司，不管项目大小，都必须派出固定人数（比如3个人）的团队，且每个人的能力水平都一样。对于小项目，这是资源浪费；对于大项目，可能又人手不足。

作者的核心动机就是要打破这种僵化，实现计算资源的动态按需分配。他们希望模型能像一个智能的系统，为复杂的任务自动分配更多的计算力，为简单的任务则分配较少的计算力，从而在保证效果的同时，将计算效率最大化。

主要贡献点分析

主要创新点提出了Grove MoE架构：这是一种全新的MoE层设计，其灵感来源于CPU的“大小核”（big.LITTLE）架构。

实现了动态计算分配：通过创新的架构，模型可以根据输入内容的复杂度，动态地调整激活的参数量，从而高效利用计算资源。

开发并开源了GroveMoE系列模型：基于该架构，作者训练并发布了330亿参数的GroveMoE-Base（基础模型）和GroveMoE-Inst（指令微调模型），证明了该架构的有效性。

关键技术

伴生专家（Adjugate Experts）：这是支撑Grove MoE架构的核心技术。作者将所有专家分成若干个“小组”（Group），并为每个小组配备一个共享的“伴生专家”。这个伴生专家可以被看作是小组的“公共助手”或“基础能力模块”。

分组共享计算机制：当路由器激活的多个专家恰好属于同一个小组时，它们共享的那个“伴生专家”的计算只需执行一次。这正是实现动态计算分配的关键。如果激活的专家来自不同的小组，那么计算量就大；如果都来自同一个小组，共享的计算就多，总计算量就小。

模型升级（Upcycling）策略：作者不是从零开始训练一个全新的模型，而是在一个已经很强大的预训练MoE模型（Qwen3-30B-A3B）的基础上，通过“升级改造”的方式，将其转换为Grove MoE架构。这是一种非常高效的模型开发策略。

显著性结果

效率与性能的兼得：GroveMoE模型在多个基准测试（尤其是在数学、推理和代码等复杂任务上）取得了与业界顶尖的、甚至更大规模的开源模型相媲美的性能。

可控的计算开销：与激活参数量高达170亿的Llama4-Scout等模型相比，GroveMoE模型平均只激活约32亿参数，却能达到类似甚至更好的效果，展示了极高的计算效率。

架构的有效性证明：实验证明，这种分组并共享伴生专家的设计，确实能够有效提升模型处理复杂问题的能力，并且是一种比传统MoE更优越的架构。

理解难点识别

理解论文的关键概念/方法

伴生专家 — Adjugate Expert — 的工作机制：这是论文最核心的创新。读者需要理解它是什么，如何与普通专家协同工作，以及为什么它能带来效率提升。

动态计算量的实现原理：光知道“动态”这个词不够，必须理解计算量是如何根据专家选择的不同而动态变化的。这与伴生专家的共享机制直接相关。

专家负载均衡 — Experts Loading Balance — 策略：这是一个重要的优化细节。虽然不是核心创新，但对于保证MoE模型训练稳定性和性能至关重要，理解它有助于看到全貌。

最具挑战性的部分

最具挑战性的部分是理解伴生专家（Adjugate Expert）的计算如何被“共享”。具体来说，当同一组的多个专家被激活时，伴生专家的输出是如何与这些专家的输出相结合，并最终体现为“只计算一次”的效率优势。这涉及到公式层面的推导（论文中的公式(5)）。

需要重点解释的核心概念

最需要深入解释的核心概念就是：“伴生专家（Adjugate Expert）与分组共享机制”。

概念依赖关系

核心概念间的关系

起点——传统MoE的局限性：理解为什么需要改变（计算分配僵化）。

核心——引入Grove MoE架构：这是解决方案，其核心是伴生专家和专家分组。

机制——解释分组共享计算：这是Grove MoE架构如何工作的关键。当同一组的多个专家被激活时，共享的伴生专家计算一次，其结果被该组内所有激活的专家复用。

结果——实现动态计算分配：这是上述机制带来的直接好处。激活的专家越集中在少数几个组里，共享计算就越多，总计算量就越小，反之亦然。

解释的最佳切入点

从伴生专家这个新颖的设计入手，用一个生动的比喻来彻底讲清楚它的工作原理。

第二阶段：深入解释核心概念

设计生活化比喻：精英工匠团队

想象一个世界顶级的手工艺品作坊，要制作一批极其精美的艺术品。

传统MoE作坊

作坊里有128位技艺精湛但领域各异的独立工匠（比如雕刻师、上色师、打磨师等）。

对于每件艺术品（一个输入token），项目经理（路由器Router）会根据艺术品的设计图，固定挑选最合适的4位工匠来完成。

问题：每位工匠都从零开始，在自己的独立工作台上完成所有工序。即使两位被选中的雕刻师都需要对木料进行同样的基础处理（比如软化、防腐），他们也得各自做一遍。这很低效。

Grove MoE作坊（本文提出的新模式）

项目经理进行了改革。他将128位工匠分成了64个两人“工匠小组”（例如，“木雕组”、“金属组”、“上色组”等）。

更重要的是，他为每个小组都配备了一名“首席助理”（伴生专家 Adjugate Expert）。这位助理不负责最终的创意环节，而是精通本小组的所有基础通用技能。比如，“木雕组”的首席助理擅长所有木材的预处理工作。

新的工作流程：

改进后的工作步骤

步骤1：一件艺术品来了，项目经理依然挑选最合适的4位工匠。

步骤2：关键变化 — 假设选中的4位工匠是"木雕组"的张三和李四，以及"上色组"的王五和"金属组"的赵六。

步骤3："木雕组"的首席助理会先对木料进行一次完美的预处理。然后，张三和李四共享这块处理好的木料，各自完成自己独特的、高难度的雕刻部分。

步骤4：与此同时，"上色组"和"金属组"的首席助理也各自为王五和赵六准备基础材料。

步骤5：核心优势 — 因为张三和李四同属一组，他们的基础工作（木料预处理）被首席助理合并并只执行了一次，大大节省了时间和成本。整个作坊的计算量（总工时）就实现了动态调整。

建立比喻与实际技术的对应关系

下一代MoE架构登场！伴生专家系统用“大小核”重写MoE规则

深入技术细节

传统MoE的计算

对于一个输入x，路由器计算每个专家的得分p，选出得分最高的k个。最终输出是这k个专家输出的加权和。

下一代MoE架构登场！伴生专家系统用“大小核”重写MoE规则

Grove MoE的核心计算

在Grove MoE中，一个专家的最终输出，是它自己独特的计算结果，加上它所在小组的“伴生专家”的计算结果。

下一代MoE架构登场！伴生专家系统用“大小核”重写MoE规则

“共享计算”的魔力 — 公式5

这是理解动态效率的关键。假设路由器选择了同一小组（组j）的两个专家，专家r和专家s。我们看看最终输出的计算会发生什么。

下一代MoE架构登场！伴生专家系统用“大小核”重写MoE规则

关键技术步骤解读:

计算执行步骤

下一代MoE架构登场！伴生专家系统用“大小核”重写MoE规则

动态性分析

下一代MoE架构登场！伴生专家系统用“大小核”重写MoE规则

将技术细节与比喻相互映射

下一代MoE架构登场！伴生专家系统用“大小核”重写MoE规则

总结

下一代MoE架构登场！伴生专家系统用“大小核”重写MoE规则

第三阶段：模型处理全流程详解

假设我们有一个训练好的GroveMoE模型，现在要对一个token的特征向量进行处理。下面是其在某一个Grove MoE层内部的完整流程：

输入：来自上一层的、代表当前token的d维特征向量 x。

流程开始：

下一代MoE架构登场！伴生专家系统用“大小核”重写MoE规则

第四步：并行计算（专家与伴生专家同时开工）这一步是整个流程的核心，也是效率提升的关键所在。计算是并行展开的：

下一代MoE架构登场！伴生专家系统用“大小核”重写MoE规则

第五步：整合与加权（汇总成果）现在，所有的计算部件都已经准备就绪，需要将它们组合成最终的输出。

下一代MoE架构登场！伴生专家系统用“大小核”重写MoE规则

第四阶段：实验设计与验证分析

主实验设计解读：核心论点的验证

核心主张

Grove MoE架构通过引入伴生专家和动态计算分配机制，能够以更少的激活参数（更高的计算效率）达到甚至超越SOTA（业界顶尖）的密集模型和传统MoE模型的性能，尤其在复杂推理任务上。

主实验设计

作者在表3 — Base模型对比 — 和表4 — Inst模型对比中，将自己的GroveMoE模型与一系列强大的基线模型在多个基准测试上进行了正面“硬碰硬”的对决。

数据集、指标与基线的选择合理性

数据集：作者选择了学术界和工业界公认的、覆盖面极广的基准测试集。

评测数据集分类

通用能力: MMLU, MMLU-Pro, CMMLU, C-Eval等，这些是评估模型综合知识和语言理解能力的金标准。

数学与STEM: GSM8K, MATH, GPQA-Diamond, OlympiadBench等，这些是专门测试模型逻辑推理、数学计算等复杂能力的"试金石"，难度极高。

代码能力: HumanEval+, MBPP+, MultiPL-E等，衡量模型代码生成与理解的核心指标。

对齐能力 — Inst模型: Arena-Hard, IFEval，评估模型是否能很好地理解和遵循人类指令。

这个选择是非常合理的，因为它不仅全面，而且有针对性地包含了能凸显其"处理复杂任务"优势的领域。 - 评价指标：实验遵循了各个数据集公认的评价指标，如准确率（Accuracy），保证了比较的公正性。 - 基线方法：选择的对手非常有代表性，几乎囊括了当时所有顶尖的开源模型。

基线模型分类

SOTA密集模型: 如Qwen2.5-32B，它参数总量和GroveMoE相近，但计算时需要激活全部32B参数。这是为了证明"稀疏激活"的优势。

SOTA传统MoE模型: 如Qwen3-30B-A3B-Base（GroveMoE的"前身"，用于证明"升级"的有效性）和Llama4-Scout。Llama4-Scout是一个非常强大的对手，它拥有109B总参数和17B激活参数，是MoE领域的标杆。

其他强力模型: Mistral-Small-3.1, Gemma3-27B等，都是社区广泛认可的强模型。

这个选择是极具说服力的，因为它包含了不同架构、不同大小的顶尖模型，能让GroveMoE的优势在多维度对比中显现出来。

实验结论

表3显示，GroveMoE-Base（总参数33B，激活~3.2B）在Math & STEM和Coding任务上全面超越了所有基线模型，包括激活参数是其5倍多的Llama4-Scout（17B）。例如，在MATH任务上，GroveMoE得分64.82，而Llama4-Scout只有51.34。

表4显示，经过指令微调的GroveMoE-Inst模型，其优势进一步扩大，在通用、对齐、数学、代码等几乎所有榜单上都取得了最高分。

主实验以压倒性的数据优势直接证明了论文的核心论点：GroveMoE架构确实实现了“高效”与“卓越”的统一。它用远小于对手的计算代价，换来了更强的性能，证明这是一种更先进的架构设计。

消融实验分析：内部组件的贡献

被“消融”的关键设计

下一代MoE架构登场！伴生专家系统用“大小核”重写MoE规则

实验结果的证明力

下一代MoE架构登场！伴生专家系统用“大小核”重写MoE规则

深度/创新性实验剖析：洞察方法的内在特性

巧妙实验一：分组路由分布可视化 — Figure 3

下一代MoE架构登场！伴生专家系统用“大小核”重写MoE规则

巧妙实验二：作为基座模型的有效性验证 — Figure 4

实验目的：证明GroveMoE架构带来的优势不仅仅是在预训练阶段，更能打造一个潜力更强的基座模型，使其在后续微调中能达到更高的高度。

实验设计：这个设计非常巧妙，采取了“同一起跑线，看谁跑得远”的策略。他们拿GroveMoE-Base模型和它的“前身”Qwen3-30B-A3B-Base模型，对两者应用完全相同的指令微调（SFT）流程和数据。然后，他们比较的不是绝对分数，而是微调后相对于微调前的性能提升幅度（Δ）。

实验结论：Figure 4的结果非常有说服力。在几乎所有任务上，从GroveMoE-Base微调得到的模型，其性能提升都显著高于从Qwen-Base微调得到的模型（柱状图几乎全为正值）。这得出了一个重磅结论：Grove MoE架构在预训练阶段所学习到的高效表征和强大能力，能够有效“遗传”并“放大”到下游任务中。这证明了Grove MoE不只是一个“小优化”，而是一种能构建更强大、更有潜力的基础模型的根本性改进。

文章来自于微信公众号“沈公子今天读什么”，作者是“Tensorlong 看天下”。

关键词: AI , 模型训练 , MoE , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner