下一代MoE架构登场!伴生专家系统用“大小核”重写MoE规则

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
下一代MoE架构登场!伴生专家系统用“大小核”重写MoE规则
6100点击    2025-08-18 16:59

下一代MoE架构登场!伴生专家系统用“大小核”重写MoE规则


一句话概括,传统MoE就像公司派固定人数团队,Grove MoE则像智能调度系统,小项目派少数人,大项目集中火力,效率与效果兼得。(原论文题目见文末,点击阅读原文可直接跳转至原文链接,Published on arXiv on 11 Aug 25, by Inclusion AI, The Chinese University of Hong Kong, Zhejiang University)


亲爱的读者们,沈公子的公众号agent🤖和base model训练升级到v3.0,今后公众号文章行文会更流畅,处理公式和符号也完全达到人类专家水准,会大幅减少出现错乱和显示异常的情况,提升阅读体验。enjoying :)


第一阶段:识别核心概念


Motivation分析


当前,混合专家(MoE)模型是构建超大规模语言模型(如GPT-4、Llama 4)的主流技术。它的核心思想是“人多力量大,但不用所有人都上班”。模型里有很多“专家”(即小型的神经网络模块),对于每一个输入(比如一个词),一个“路由器”(Router)会智能地选择几个最相关的专家来处理它,而不是调动整个庞大的模型。这大大节省了计算资源。


然而,传统MoE架构存在一个显著的痛点计算资源分配的“僵化”。无论输入的任务是简单(如“你好”)还是复杂(如一段需要深度推理的物理题),模型都会激活固定数量、同样大小的专家。这就像一个公司,不管项目大小,都必须派出固定人数(比如3个人)的团队,且每个人的能力水平都一样。对于小项目,这是资源浪费;对于大项目,可能又人手不足。


作者的核心动机就是要打破这种僵化,实现计算资源的动态按需分配。他们希望模型能像一个智能的系统,为复杂的任务自动分配更多的计算力,为简单的任务则分配较少的计算力,从而在保证效果的同时,将计算效率最大化。


主要贡献点分析


  • 主要创新点提出了Grove MoE架构:这是一种全新的MoE层设计,其灵感来源于CPU的“大小核”(big.LITTLE)架构。


  • 实现了动态计算分配:通过创新的架构,模型可以根据输入内容的复杂度,动态地调整激活的参数量,从而高效利用计算资源。


  • 开发并开源了GroveMoE系列模型:基于该架构,作者训练并发布了330亿参数的GroveMoE-Base(基础模型)和GroveMoE-Inst(指令微调模型),证明了该架构的有效性。


  • 关键技术


  • 伴生专家(Adjugate Experts):这是支撑Grove MoE架构的核心技术。作者将所有专家分成若干个“小组”(Group),并为每个小组配备一个共享的“伴生专家”。这个伴生专家可以被看作是小组的“公共助手”或“基础能力模块”。


  • 分组共享计算机制:当路由器激活的多个专家恰好属于同一个小组时,它们共享的那个“伴生专家”的计算只需执行一次。这正是实现动态计算分配的关键。如果激活的专家来自不同的小组,那么计算量就大;如果都来自同一个小组,共享的计算就多,总计算量就小。


  • 模型升级(Upcycling)策略:作者不是从零开始训练一个全新的模型,而是在一个已经很强大的预训练MoE模型(Qwen3-30B-A3B)的基础上,通过“升级改造”的方式,将其转换为Grove MoE架构。这是一种非常高效的模型开发策略。


  • 显著性结果


  • 效率与性能的兼得:GroveMoE模型在多个基准测试(尤其是在数学、推理和代码等复杂任务上)取得了与业界顶尖的、甚至更大规模的开源模型相媲美的性能。


  • 可控的计算开销:与激活参数量高达170亿的Llama4-Scout等模型相比,GroveMoE模型平均只激活约32亿参数,却能达到类似甚至更好的效果,展示了极高的计算效率。


  • 架构的有效性证明:实验证明,这种分组并共享伴生专家的设计,确实能够有效提升模型处理复杂问题的能力,并且是一种比传统MoE更优越的架构。


理解难点识别


  • 理解论文的关键概念/方法


  • 伴生专家 — Adjugate Expert — 的工作机制:这是论文最核心的创新。读者需要理解它是什么,如何与普通专家协同工作,以及为什么它能带来效率提升。


  • 动态计算量的实现原理:光知道“动态”这个词不够,必须理解计算量是如何根据专家选择的不同而动态变化的。这与伴生专家的共享机制直接相关。


  • 专家负载均衡 — Experts Loading Balance — 策略:这是一个重要的优化细节。虽然不是核心创新,但对于保证MoE模型训练稳定性和性能至关重要,理解它有助于看到全貌。


  • 最具挑战性的部分


  • 最具挑战性的部分是理解伴生专家(Adjugate Expert)的计算如何被“共享”。具体来说,当同一组的多个专家被激活时,伴生专家的输出是如何与这些专家的输出相结合,并最终体现为“只计算一次”的效率优势。这涉及到公式层面的推导(论文中的公式(5))。


  • 需要重点解释的核心概念


  • 最需要深入解释的核心概念就是:“伴生专家(Adjugate Expert)与分组共享机制”


概念依赖关系


  • 核心概念间的关系


  • 起点——传统MoE的局限性:理解为什么需要改变(计算分配僵化)。


  • 核心——引入Grove MoE架构:这是解决方案,其核心是伴生专家专家分组


  • 机制——解释分组共享计算:这是Grove MoE架构如何工作的关键。当同一组的多个专家被激活时,共享的伴生专家计算一次,其结果被该组内所有激活的专家复用。


  • 结果——实现动态计算分配:这是上述机制带来的直接好处。激活的专家越集中在少数几个组里,共享计算就越多,总计算量就越小,反之亦然。


  • 解释的最佳切入点


  • 伴生专家这个新颖的设计入手,用一个生动的比喻来彻底讲清楚它的工作原理。


第二阶段:深入解释核心概念


设计生活化比喻:精英工匠团队


想象一个世界顶级的手工艺品作坊,要制作一批极其精美的艺术品。


  • 传统MoE作坊


  • 作坊里有128位技艺精湛但领域各异的独立工匠(比如雕刻师、上色师、打磨师等)。


  • 对于每件艺术品(一个输入token),项目经理(路由器Router)会根据艺术品的设计图,固定挑选最合适的4位工匠来完成。


  • 问题:每位工匠都从零开始,在自己的独立工作台上完成所有工序。即使两位被选中的雕刻师都需要对木料进行同样的基础处理(比如软化、防腐),他们也得各自做一遍。这很低效


  • Grove MoE作坊(本文提出的新模式)


  • 项目经理进行了改革。他将128位工匠分成了64个两人“工匠小组”(例如,“木雕组”、“金属组”、“上色组”等)。


  • 更重要的是,他为每个小组都配备了一名“首席助理”伴生专家 Adjugate Expert)。这位助理不负责最终的创意环节,而是精通本小组的所有基础通用技能。比如,“木雕组”的首席助理擅长所有木材的预处理工作。


  • 新的工作流程


改进后的工作步骤


步骤1:一件艺术品来了,项目经理依然挑选最合适的4位工匠。


步骤2关键变化 — 假设选中的4位工匠是"木雕组"的张三和李四,以及"上色组"的王五和"金属组"的赵六。


步骤3:"木雕组"的首席助理会先对木料进行一次完美的预处理。然后,张三和李四共享这块处理好的木料,各自完成自己独特的、高难度的雕刻部分。


步骤4:与此同时,"上色组"和"金属组"的首席助理也各自为王五和赵六准备基础材料。


步骤5核心优势 — 因为张三和李四同属一组,他们的基础工作(木料预处理)被首席助理合并并只执行了一次,大大节省了时间和成本。整个作坊的计算量(总工时)就实现了动态调整


建立比喻与实际技术的对应关系


下一代MoE架构登场!伴生专家系统用“大小核”重写MoE规则


深入技术细节


传统MoE的计算


对于一个输入x,路由器计算每个专家的得分p,选出得分最高的k个。最终输出是这k个专家输出的加权和。


下一代MoE架构登场!伴生专家系统用“大小核”重写MoE规则


Grove MoE的核心计算


在Grove MoE中,一个专家的最终输出,是它自己独特的计算结果,加上它所在小组的“伴生专家”的计算结果。


下一代MoE架构登场!伴生专家系统用“大小核”重写MoE规则


“共享计算”的魔力 — 公式5


这是理解动态效率的关键。假设路由器选择了同一小组(组j)的两个专家,专家r和专家s。我们看看最终输出的计算会发生什么。


下一代MoE架构登场!伴生专家系统用“大小核”重写MoE规则


  • 关键技术步骤解读:


计算执行步骤


下一代MoE架构登场!伴生专家系统用“大小核”重写MoE规则


动态性分析


下一代MoE架构登场!伴生专家系统用“大小核”重写MoE规则


将技术细节与比喻相互映射


下一代MoE架构登场!伴生专家系统用“大小核”重写MoE规则


总结


下一代MoE架构登场!伴生专家系统用“大小核”重写MoE规则


第三阶段:模型处理全流程详解


假设我们有一个训练好的GroveMoE模型,现在要对一个token的特征向量 进行处理。下面是其在某一个Grove MoE层内部的完整流程:


输入:来自上一层的、代表当前token的d维特征向量 x。


流程开始:


下一代MoE架构登场!伴生专家系统用“大小核”重写MoE规则


第四步:并行计算(专家与伴生专家同时开工)这一步是整个流程的核心,也是效率提升的关键所在。计算是并行展开的:


下一代MoE架构登场!伴生专家系统用“大小核”重写MoE规则


第五步:整合与加权(汇总成果)现在,所有的计算部件都已经准备就绪,需要将它们组合成最终的输出。


下一代MoE架构登场!伴生专家系统用“大小核”重写MoE规则


第四阶段:实验设计与验证分析


主实验设计解读:核心论点的验证


  • 核心主张


  • Grove MoE架构通过引入伴生专家和动态计算分配机制,能够以更少的激活参数(更高的计算效率)达到甚至超越SOTA(业界顶尖)的密集模型和传统MoE模型的性能,尤其在复杂推理任务上。


  • 主实验设计


  • 作者在表3 — Base模型对比 — 和表4 — Inst模型对比 中,将自己的GroveMoE模型与一系列强大的基线模型在多个基准测试上进行了正面“硬碰硬”的对决。


  • 数据集、指标与基线的选择合理性


  • 数据集:作者选择了学术界和工业界公认的、覆盖面极广的基准测试集。


评测数据集分类


  • 通用能力: MMLU, MMLU-Pro, CMMLU, C-Eval等,这些是评估模型综合知识和语言理解能力的金标准。


  • 数学与STEM: GSM8K, MATH, GPQA-Diamond, OlympiadBench等,这些是专门测试模型逻辑推理、数学计算等复杂能力的"试金石",难度极高。


  • 代码能力: HumanEval+, MBPP+, MultiPL-E等,衡量模型代码生成与理解的核心指标。


  • 对齐能力 — Inst模型: Arena-Hard, IFEval,评估模型是否能很好地理解和遵循人类指令。


这个选择是非常合理的,因为它不仅全面,而且有针对性地包含了能凸显其"处理复杂任务"优势的领域。 - 评价指标:实验遵循了各个数据集公认的评价指标,如准确率(Accuracy),保证了比较的公正性。 - 基线方法:选择的对手非常有代表性,几乎囊括了当时所有顶尖的开源模型。


基线模型分类


  • SOTA密集模型: 如Qwen2.5-32B,它参数总量和GroveMoE相近,但计算时需要激活全部32B参数。这是为了证明"稀疏激活"的优势。


  • SOTA传统MoE模型: 如Qwen3-30B-A3B-Base(GroveMoE的"前身",用于证明"升级"的有效性)和Llama4-Scout。Llama4-Scout是一个非常强大的对手,它拥有109B总参数和17B激活参数,是MoE领域的标杆。


  • 其他强力模型: Mistral-Small-3.1, Gemma3-27B等,都是社区广泛认可的强模型。


这个选择是极具说服力的,因为它包含了不同架构、不同大小的顶尖模型,能让GroveMoE的优势在多维度对比中显现出来。


  • 实验结论


  • 表3显示,GroveMoE-Base(总参数33B,激活~3.2B)在Math & STEMCoding任务上全面超越了所有基线模型,包括激活参数是其5倍多的Llama4-Scout(17B)。例如,在MATH任务上,GroveMoE得分64.82,而Llama4-Scout只有51.34。


  • 表4显示,经过指令微调的GroveMoE-Inst模型,其优势进一步扩大,在通用、对齐、数学、代码等几乎所有榜单上都取得了最高分。


  • 主实验以压倒性的数据优势直接证明了论文的核心论点:GroveMoE架构确实实现了“高效”与“卓越”的统一。它用远小于对手的计算代价,换来了更强的性能,证明这是一种更先进的架构设计。


消融实验分析:内部组件的贡献


  • 被“消融”的关键设计


下一代MoE架构登场!伴生专家系统用“大小核”重写MoE规则


  • 实验结果的证明力


下一代MoE架构登场!伴生专家系统用“大小核”重写MoE规则


深度/创新性实验剖析:洞察方法的内在特性


  • 巧妙实验一:分组路由分布可视化 — Figure 3


下一代MoE架构登场!伴生专家系统用“大小核”重写MoE规则


  • 巧妙实验二:作为基座模型的有效性验证 — Figure 4


  • 实验目的:证明GroveMoE架构带来的优势不仅仅是在预训练阶段,更能打造一个潜力更强的基座模型,使其在后续微调中能达到更高的高度。


  • 实验设计:这个设计非常巧妙,采取了“同一起跑线,看谁跑得远”的策略。他们拿GroveMoE-Base模型和它的“前身”Qwen3-30B-A3B-Base模型,对两者应用完全相同的指令微调(SFT)流程和数据。然后,他们比较的不是绝对分数,而是微调后相对于微调前的性能提升幅度(Δ)


  • 实验结论:Figure 4的结果非常有说服力。在几乎所有任务上,从GroveMoE-Base微调得到的模型,其性能提升都显著高于从Qwen-Base微调得到的模型(柱状图几乎全为正值)。这得出了一个重磅结论:Grove MoE架构在预训练阶段所学习到的高效表征和强大能力,能够有效“遗传”并“放大”到下游任务中。这证明了Grove MoE不只是一个“小优化”,而是一种能构建更强大、更有潜力的基础模型的根本性改进。


文章来自于微信公众号“沈公子今天读什么”,作者是“Tensorlong 看天下”。


关键词: AI , 模型训练 , MoE , 人工智能
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

4
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner