AI资讯新闻榜单内容搜索-DeepSeek-V

GLM-5架构曝光，智谱两日涨60%：采用DeepSeek同款稀疏注意力

不管Pony Alpha是不是智谱的，下一代旗舰大模型GLM-5都要来了。GLM-5采用了DeepSeek-V3/V3.2架构，包括稀疏注意力机制（DSA）和多Token预测（MTP），总参数量745B，是上一代GLM-4.7的2倍。

来自主题: AI资讯

9852 点击 2026-02-10 16:27

“DeepSeek-V3基于我们的架构打造”，欧版OpenAI CEO逆天发言被喷了

“DeepSeek-V3是在Mistral提出的架构上构建的。”

来自主题: AI技术研报

8404 点击 2026-01-26 15:03

这家西方开源大模型公司，开源出了DeepSeek-V3背后的架构！头部模型表现都差不多了，Mistral CEO自曝如何赚钱

面对《the Big Technology Podcast》抛出的问题，Mistral AI的 CEO Arthur Mensch 表示：大模型肯定会走向商品化，当模型表现越来越接近，那么竞争就不在于模型本身，而在于如何让客户用起来。

来自主题: AI资讯

9376 点击 2026-01-19 18:20

超DeepEP两倍！无问芯穹FUSCO以「空中变阵」突破MoE通信瓶颈，专为Agent爆发设计

机器之心发布随着 ChatGPT、Gemini、DeepSeek-V3、Kimi-K2 等主流大模型纷纷采用混合专家架构（Mixture-of-Experts, MoE）及专家并行策略（Expert

来自主题: AI技术研报

9771 点击 2026-01-01 10:14

小米突然发布新模型：媲美 DeepSeek-V3.2，把手机的性价比卷到 AI

开源模型再次迎来一位重磅选手，就在刚刚，小米正式发布并开源新模型 MiMo-V2-Flash。

来自主题: AI技术研报

10647 点击 2025-12-17 11:52

罗福莉首秀前，小米突然发布！代码全球最强，总体媲美DeepSeek-V3.2【附实测】

今天，小米发布并开源了最新MoE大模型MiMo-V2-Flash，总参数309B，激活参数15B。今日上午，小米2025小米人车家全生态合作伙伴大会上，Xiaomi MiMO大模型负责人罗福莉将首秀并发布主题演讲。

来自主题: AI资讯

9168 点击 2025-12-17 09:41

DeepSeek V3到V3.2的进化之路，一文看全

12 月 1 日，DeepSeek 一口气发布了两款新模型：DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。几天过去，热度依旧不减，解读其技术报告的博客也正在不断涌现。知名 AI 研究者和博主 Sebastian Raschka 发布这篇深度博客尤其值得一读，其详细梳理了 DeepSeek V3 到 V3.2 的进化历程。

来自主题: AI技术研报

9715 点击 2025-12-08 12:48