训练加速40倍、打破“不可能三角”:MiniMax Agent RL 架构解密
训练加速40倍、打破“不可能三角”:MiniMax Agent RL 架构解密随着 MiniMax M2.5 的发布并在社区引发热烈反响,很高兴能借此机会,分享在模型训练背后关于 Agent RL 系统的一些思考。 在大规模、复杂的真实世界场景中跑 RL 时,始终面临一个核心难
随着 MiniMax M2.5 的发布并在社区引发热烈反响,很高兴能借此机会,分享在模型训练背后关于 Agent RL 系统的一些思考。 在大规模、复杂的真实世界场景中跑 RL 时,始终面临一个核心难
一句话做“黄金矿工”游戏、生成精美公司网站。
这两天 AI 圈真的太热闹了,就在网传 DeepSeek 要更新支持 100 万 Token 上下文的新模型时,MiniMax 率先冲锋,更新了他们的新旗舰模型:MiniMax-M2.5。更有意思的是,国外网友这段时间对国内 AI 大模型的更新节奏格外关注,他们甚至把这种争先更新的现象称为:Happy Chinese new year!
就在刚刚,据《南华早报》援引知情人士最新消息,智谱 AI 计划在未来两周内,也就是春节前发布其新旗舰模型 GLM-5。与此同时,MiniMax 也预计将于春节前发布 M2.2 模型,这是在原有 M2.1 基础上进行的小幅更新,重点提升编程能力。
今天,我们分享 MiniMax-M2-her 背后的技术思考。M2-her 也是服务星野/Talkie的底层模型。
Clawdbot痛失本名改叫Moltbot后,热度丝毫不减。
今天,我们正式发布 MiniMax Music 2.5:全维度突破,指挥细节,定义真实。AI 音乐始终面对两个挑战:可控性与真实度。前者决定了创作者能否表达真实意图,后者决定了作品是否具备专业质感。
真没想到,MiniMax Agent 居然赶在春节前又放了个大招!MiniMax 桌面端 + 专家模式同步上线!说实话,MiniMax 这迭代效率着实太高了,追的我测评都有点肝不动了
Claude Skill 很火,甚至已经超越 MCP 了,如今各家的 cli 客户端基本也都支持,扣子、MiniMax 的 agent 产品也都上架了类 Skill 的产品。而且不仅仅是对普通用户有用,从开发者视角来看,通用 Agent 内核,只靠 Skills 设计,也能低成本创造具有通用 AI 智能上限的垂直 Agent 应用。
曾经那些将需求、设计与代码强行割裂的流水线,正在快速消融。