AI资讯新闻榜单内容搜索-MoE

Z Tech ｜ LMSYS 团队发布大规模 MoE 强化学习框架 Miles，不积跬步无以至千里

继轻量级强化学习（RL）框架 slime 在社区中悄然流行并支持了包括 GLM-4.6 在内的大量 Post-training 流水线与 MoE 训练任务之后，LMSYS 团队正式推出 Miles——一个专为企业级大规模 MoE 训练及生产环境工作负载设计的强化学习框架。

来自主题: AI资讯

9431 点击 2025-11-20 15:26

EMNLP2025 | 通研院揭秘MoE可解释性，提升Context忠实性！

在大模型研究领域，做混合专家模型（MoE）的团队很多，但专注机制可解释性（Mechanistic Interpretability）的却寥寥无几 —— 而将二者深度结合，从底层机制理解复杂推理过程的工作，更是凤毛麟角。

来自主题: AI技术研报

10440 点击 2025-11-17 09:25

小成本DeepSeek和Kimi，正攻破奥特曼的「算力护城河」

2025年前盛行的闭源+重资本范式正被DeepSeek-R1与月之暗面Kimi K2 Thinking改写，二者以数百万美元成本、开源权重，凭MoE与MuonClip等优化，在SWE-Bench与BrowseComp等基准追平或超越GPT-5，并以更低API价格与本地部署撬动市场预期，促使行业从砸钱堆料转向以架构创新与稳定训练为核心的高效路线。

来自主题: AI资讯

10812 点击 2025-11-10 09:19

中移动九天团队MultiPL-MoE：全新Hybrid-MoE架构用于增强通用大模型低资源代码能力

大语言模型（LLM）虽已展现出卓越的代码生成潜力，却依然面临着一道艰巨的挑战：如何在有限的计算资源约束下，同步提升对多种编程语言的理解与生成能力，同时不损害其在主流语言上的性能？

来自主题: AI技术研报

8869 点击 2025-10-30 16:23

Cursor 2.0 发布首个编程大模型Composer！代码生成250tokens/秒，强化学习+MoE架构

最新进展，Cursor 2.0正式发布，并且首次搭载了「内部」大模型。没错，不是GPT、不是Claude，如今模型栏多了个新名字——Composer。实力相当炸裂：据官方说法，Composer仅需30秒就能完成复杂任务，比同行快400%

来自主题: AI资讯

8963 点击 2025-10-30 09:14

AI五小时发现MoE新算法，比人类算法快5倍，成本狂降26%

加州大学伯克利分校的研究团队提出了一种AI驱动的系统研究方法ADRS（AI-Driven Research for Systems），它可以通过“生成—评估—改进”的迭代循环，实现算法的持续优化。

来自主题: AI资讯

7981 点击 2025-10-24 16:52

DeepSeek 再开源：发布 3B MoE OCR 模型，视觉压缩高达20倍

刚刚，DeepSeek 推出了全新的视觉文本压缩模型 DeepSeek-OCR。该模型最大的突破在于极高的压缩效率： 20 个节点每天可处理 3300 万页数据，硬件要求仅为 A100-40G。

来自主题: AI资讯

12762 点击 2025-10-20 16:30

小米最新大模型成果！罗福莉现身了

小米的最新大模型科研成果，对外曝光了。就在最近，小米AI团队携手北京大学联合发布了一篇聚焦MoE与强化学习的论文。而其中，因为更早之前在DeepSeek R1爆火前转会小米的罗福莉，也赫然在列，还是通讯作者。

来自主题: AI技术研报

9372 点击 2025-10-17 16:44

清华&巨人网络首创MoE多方言TTS框架，数据代码方法全开源

无论是中文的粤语、闽南话、吴语，还是欧洲的荷兰比尔茨语方言、法国奥克语，亦或是非洲和南美的地方语言，方言都承载着独特的音系与文化记忆，是人类语言多样性的重要组成部分。然而，许多方言正在快速消失，语音技术如果不能覆盖这些语言，势必加剧数字鸿沟与文化失声。

来自主题: AI技术研报

9078 点击 2025-10-16 12:08

为MoE解绑：全新「专家即服务」推理架构发布，超细粒度扩展锐减37.5%成本

近年来，大型语言模型的参数规模屡创新高，随之而来的推理开销也呈指数级增长。如何降低超大模型的推理成本，成为业界关注的焦点之一。Mixture-of-Experts (MoE，混合专家) 架构通过引入大量 “专家” 子模型，让每个输入仅激活少数专家，从而在参数规模激增的同时避免推理计算量同比增长。

来自主题: AI技术研报

9342 点击 2025-10-13 15:49