AI资讯新闻榜单内容搜索-混合专家模型

Attention Sink产生的起点？清华&美团首次揭秘MoE LLM中的超级专家机制

稀疏激活的混合专家模型（MoE）通过动态路由和稀疏激活机制，极大提升了大语言模型（LLM）的学习能力，展现出显著的潜力。基于这一架构，涌现出了如 DeepSeek、Qwen 等先进的 MoE LLM。

来自主题: AI技术研报

5549 点击 2025-08-12 11:07

华为盘古之殇最新进展：华为吹哨人再发讨贼檄文

我们先给不知道剧情的朋友回归一下事件事件线：2025年6月30日，华为宣布开源盘古7B稠密和72B混合专家模型。然而发布会后，网络上出现华为盘古大模型抄袭的言论。7月5日，诺亚方舟实验室发布《关于盘古大模型开源代码相关讨论的声明》。本以为官方已经出来站台，这件事到此为止。

来自主题: AI资讯

9982 点击 2025-07-10 09:21

华为盘古大模型“抄袭”阿里Qwen？官方回应

7月5日下午16:59分，隶属于华为的负责开发盘古大模型的诺亚方舟实验室发布声明对于“抄袭”指控进行了官方回应。诺亚方舟实验室表示，盘古Pro MoE开源模型是基于昇腾硬件平台开发、训练的基础大模型，并非基于其他厂商模型增量训练而来，在架构设计、技术特性等方面做了关键创新，是全球首个面向昇腾硬件平台设计的同规格混合专家模型

来自主题: AI资讯

8654 点击 2025-07-06 11:06

各大互联网厂商，为什么会愿意将花费了巨额资金的AI大模型开源？

最近，看到各大厂商，在不断地将自己的AI大模型进行开源。华为宣布开源：盘古7B稠密和72B混合专家模型。

来自主题: AI资讯

5623 点击 2025-07-01 15:46

刚刚！华为首个开源大模型来了

刚刚，华为正式宣布开源盘古 70 亿参数的稠密模型、盘古 Pro MoE 720 亿参数的混合专家模型（参见机器之心报道：华为盘古首次露出，昇腾原生72B MoE架构，SuperCLUE千亿内模型并列国内第一）和基于昇腾的模型推理技术。

来自主题: AI资讯

8213 点击 2025-06-30 09:19

华为：让DeepSeek的“专家们”动起来，推理延迟降10%！

要问最近哪个模型最火，混合专家模型（MoE，Mixture of Experts）绝对是榜上提名的那一个。

来自主题: AI技术研报

8142 点击 2025-05-20 15:16

一文详解：DeepSeek 第三天开源的 DeepGEMM

DeepSeek 开源周的第三天，带来了专为 Hopper 架构 GPU 优化的矩阵乘法库 — DeepGEMM。这一库支持标准矩阵计算和混合专家模型（MoE）计算，为 DeepSeek-V3/R1 的训练和推理提供强大支持，在 Hopper GPU 上达到 1350+FP8 TFLOPS 的高性能。

来自主题: AI技术研报

6061 点击 2025-02-26 10:46