AI资讯新闻榜单内容搜索-MoE

独家｜字节迎战阿里快乐马：开源多模统一模型Mamoda2.5，推理速度快18倍

独家获悉，字节跳动日前低调公布全球首个25B级、基于混合专家 (MoE) -扩散自注意力机制(DiT) 的开源增强统一多模态模型Mamoda2.5。Mamoda2.5依托Qwen3-VL-8B、128 个专家，Top-8 路由的MoE+DiT架构搭建，最终模型参数高达250亿，而每次仅激活约30亿参数（约12%）。

来自主题: AI资讯

10170 点击 2026-05-06 10:44

DeepSeek做大→Mega MoE，Tri Dao团队加快→SonicMoE

近日，由普林斯顿大学 Tri Dao（FlashAttention 的一作）和加州大学伯克利分校 Ion Stoica 领导的一个联合研究团队也做出了一个超快的索尼克：SonicMoE。据介绍，SonicMoE 能在英伟达 Blackwell GPU 上以峰值吞吐量运行！并且运算性能超过了 DeepSeek 之前开源并引发巨大轰动的 DeepGEMM。

来自主题: AI技术研报

8137 点击 2026-05-04 10:17

不可思议！400B大模型在iPhone上跑起来了

刚看到这个 Demo 的时候着实有些想笑，很久没有见过吐词如此之慢的大模型了。观感上就像「闪电」老师。尽管只有每秒 0.6 个 tokens 的输出速率，这依旧是一个令人不可思议的工作。因为这是一个跑在 iPhone 17 Pro 上的 400B 大模型！

来自主题: AI资讯

10162 点击 2026-05-02 11:02

不换GPU，性能飙升2.8倍！英伟达用软件暴打摩尔定律

MoE模型的稀疏激活本是优势，却常陷通信瓶颈。NVIDIA以软件为利剑，通过程序化依赖启动和全对全通信革新，在三个月内将GB200的单GPU吞吐提升2.8倍，真正释放Blackwell硬件潜力。

来自主题: AI技术研报

9481 点击 2026-04-28 10:09

刚刚，DeepSeek开始频繁更新：Tile Kernels、DeepEP V2

就在刚刚，DeepSeek 的 GitHub 开始了频繁更新，上线开源了一个新的代码库 Tile Kernels，同时并对 DeepEP 代码库进行了更新，上线了 DeepEP V2。距离上次 DeepSeek 悄悄更新 Mega MoE、FP4 Indexer 还不到一周。

来自主题: AI资讯

9160 点击 2026-04-24 10:09

都是你能部署的：Qwen3.6和Gemma4，谁更适合作为你的下一代本地MoE模型？

阿里前几天开源的Qwen3.6-35B-A3B，让这次讨论不再只是一次普通的新旧模型对比。它一边要面对谷歌Gemma4-26B-A4B的外部竞争，一边又必须回答一个更麻烦的问题：相较于 Qwen3.5-35B-A3B，它到底是升级，还是修补？更现实的是，很多人现在真正跑着的，其实是Qwen3.5-27B，那么这条新的35B-A3B路线，到底值不值得迁过去。

来自主题: AI技术研报

9546 点击 2026-04-23 09:23

MoE不够看了，腾讯推出MoT：2B具身模型22项评测16项最佳

让大模型真正走进现实世界，是当下最迫切的需求之一。

来自主题: AI技术研报

10579 点击 2026-04-09 14:46

Cursor 凌晨自曝黑科技：重写 MoE 生成机制，Blackwell 推理性能直接翻倍！网友：直接榨干B200最后一滴带宽！

今天早上，Cursor 在X上发布一条推文：“我们重建了 MoE 模型在 Blackwell GPU 上生成 Tokens 的方式，导致推理速度快了 1.84 倍。”

来自主题: AI资讯

10751 点击 2026-04-08 10:24

谷歌重磅开源Gemma 4！手机离线跑 Agent、还降内存，Qwen 被拉进正面对决

刚刚，谷歌正式发布 Gemma 4，称“这是其迄今为止最智能的开放模型系列”。该系列面向复杂推理与智能体工作流设计，采用商业许可的 Apache 2.0 许可证开源。Gemma 4 提供四种规格：Effective 2B（E2B）、Effective 4B（E4B）、26B 混合专家模型（MoE）和 31B 稠密模型（Dense）。

来自主题: AI资讯

9787 点击 2026-04-03 01:35

Dense、MoE之外第三条Scaling路径：交大提出JTok模块，省1/3算力

为了松绑参数与计算量，MoE 曾被寄予厚望。它靠着稀疏激活的专家子网络，在一定程度上实现了模型容量与计算量的解耦。然而，近期的研究表明，这并非没有代价的免费午餐：稀疏模型通常具有更低的样本效率；随着稀疏度增大，路由负载均衡变得更加困难，且巨大的显存开销和通信压力导致其推理吞吐量往往远低于同等激活参数量的 dense 模型。

来自主题: AI技术研报

8935 点击 2026-03-03 14:15