还得是华为!Pangu Ultra MoE架构:不用GPU,你也可以这样训练准万亿MoE大模型
还得是华为!Pangu Ultra MoE架构:不用GPU,你也可以这样训练准万亿MoE大模型Pangu Ultra MoE 是一个全流程在昇腾 NPU 上训练的准万亿 MoE 模型,此前发布了英文技术报告[1]。最近华为盘古团队发布了 Pangu Ultra MoE 模型架构与训练方法的中文技术报告,进一步披露了这个模型的细节。
Pangu Ultra MoE 是一个全流程在昇腾 NPU 上训练的准万亿 MoE 模型,此前发布了英文技术报告[1]。最近华为盘古团队发布了 Pangu Ultra MoE 模型架构与训练方法的中文技术报告,进一步披露了这个模型的细节。
今年,Google算是打了个翻身仗。
来自英伟达和UIUC的华人团队提出一种高效训练方法,将LLM上下文长度从128K扩展至惊人的400万token SOTA纪录!基于Llama3.1-Instruct打造的UltraLong-8B模型,不仅在长上下文基准测试中表现卓越,还在标准任务中保持顶尖竞争力。
密集模型的推理能力也能和DeepSeek-R1掰手腕了?
终于,华为盘古大模型系列上新了,而且是昇腾原生的通用千亿级语言大模型。我们知道,如今各大科技公司纷纷发布百亿、千亿级模型。但这些大部分模型训练主要依赖英伟达的 GPU。
老黄在GTC 2025大会上,再次亮出了英伟达未来GPU路线图。随着推理token的暴增,AI计算需要全新的范式,下一代BlackWell Ultra、Vera Rubin就是最强的回应。
号称地表最强的M3 Ultra,本地跑满血版DeepSeek R1,效果到底如何?
字节对MoE模型训练成本再砍一刀,成本可节省40%! 刚刚,豆包大模型团队在GitHub上开源了叫做COMET的MoE优化技术。
M3 Ultra终极引擎,可跑千亿模型
前几天,朋友跟我报了个猛料:苹果电脑上的可以用AI了。而另一位朋友,则带来了更为准确的消息:M2 Ultra 版本的 Mac Studio,已原生适配阶跃星辰模型全家桶,这应该是第一个全面适配苹果 Mac 设备的中国大模型厂商。