
月之暗面开源改进版Muon优化器,算力需求比AdamW锐减48%,DeepSeek也适用
月之暗面开源改进版Muon优化器,算力需求比AdamW锐减48%,DeepSeek也适用算力需求比AdamW直降48%,OpenAI技术人员提出的训练优化算法Muon,被月之暗面团队又推进了一步!
算力需求比AdamW直降48%,OpenAI技术人员提出的训练优化算法Muon,被月之暗面团队又推进了一步!
月之暗面还不想从这个赛道退出,所以才要放弃眼前的利益。
2 月 18 日,月之暗面发布了一篇关于稀疏注意力框架 MoBA 的论文。MoBA 框架借鉴了 Mixture of Experts(MoE)的理念,提升了处理长文本的效率,它的上下文长度可扩展至 10M。并且,MoBA 支持在全注意力和稀疏注意力之间无缝切换,使得与现有的预训练模型兼容性大幅提升。
来了来了,月之暗面首个「满血版o1」来了!这是除OpenAI之外,首次有多模态模型在数学和代码能力上达到了满血版o1的水平。
去年初,朱啸虎接受了张小珺的采访。 彼时,月之暗面刚刚完成 10 亿美元融资,用户增长数据一路绝尘。OpenAI 发布 Sora 了技术报告和演示视频,整个 AI 圈再次狂欢。
大洋彼岸的OpenAI系列春晚还在继续,连续发布会的第9天,OpenAI正式发布了o1模型的API。
国产大模型,正在引领 AI 技术新方向。 今天上午,月之暗面 Kimi 正式发布了视觉思考模型 k1,并已经上线了最新版的网页版以及安卓和 iOS APP。
在月之暗面的股份争议频上热搜的12月初,前金沙江创投主管合伙人张予彤成为风暴中心。在朱啸虎讲述的故事版本中,张予彤违反了公司规定和受托责任,隐瞒其在从循环智能分拆的月之暗面的巨额股份,因而遭到解雇。
月之暗面的融资纠纷与AI大模型行业挑战。 近日国内AI大模型领域,因为月之暗面的一系列风波,再次站上舆论风口。
近日,月之暗面一直处于风暴眼中。这固然与朱啸虎的连番指责、Kimi的股权纠纷迷雾有关,也因一定程度上,旗下产品Kimi正在与更谨慎投放、更积极寻找商业化的大模型行业主线“逆向而行”。