
华为 Pangu 员工自曝:盘古模型套壳、续训、洗水印
华为 Pangu 员工自曝:盘古模型套壳、续训、洗水印华为 Pangu 员工自曝盘古模型并非如内部宣称的是“从旧的135B参数继承改造而来”,而是直接套用阿里千问 1.5 110B 模型进行续训(通过加层、扩增FFN维度、添加PI机制凑参数)。作者指出:
来自主题: AI资讯
9266 点击 2025-07-07 09:58
华为 Pangu 员工自曝盘古模型并非如内部宣称的是“从旧的135B参数继承改造而来”,而是直接套用阿里千问 1.5 110B 模型进行续训(通过加层、扩增FFN维度、添加PI机制凑参数)。作者指出:
现在,请大家一起数一下“1”、“2”。OK,短短2秒钟时间,一个准万亿MoE大模型就已经吃透如何解一道高等数学大题了!而且啊,这个大模型还是不用GPU来训练,全流程都是大写的“国产”的那种。
Pangu Ultra MoE 是一个全流程在昇腾 NPU 上训练的准万亿 MoE 模型,此前发布了英文技术报告[1]。最近华为盘古团队发布了 Pangu Ultra MoE 模型架构与训练方法的中文技术报告,进一步披露了这个模型的细节。
LLM发展到今天,下一步该往哪个方向探索?
现在,AI 大模型可以真正与物理世界结合了。
当前有不少的大语言模型已经拥有了高准确度的天气预测能力。相比传统的天气预测技术,这些被称为大型 AI 气象预测模型(Large AI Weather forecast Model,LWMs)在极端天气预测方面有着更好的效果。