
强化学习新发现:无需数学样本,仅游戏训练AI推理大增
强化学习新发现:无需数学样本,仅游戏训练AI推理大增最近,强化学习领域出现了一个颠覆性发现:研究人员不再需要大量数学训练样本,仅仅让 AI 玩简单游戏,就能显著提升其数学推理能力。
最近,强化学习领域出现了一个颠覆性发现:研究人员不再需要大量数学训练样本,仅仅让 AI 玩简单游戏,就能显著提升其数学推理能力。
在我们去年 AI Scaling Laws article from late last year中,我们探讨了多层 AI 扩展定律如何持续推动 AI 行业向前发展,使得模型能力的增长速度超过了摩尔定律,并且单位 token 成本也相应地迅速降低。
Alexandr Wang的人生堪称AI时代的缩影,19岁辍学到28岁掌管Meta超级智能。在最近的一场专访中,他谈到了AI的潜力与缺陷,他将如何影响这场智能革命的方向?
在思维节奏这件事上,人类早已形成一种独特而复杂的模式。
具身智能可太火了!Generalist AI发布了一段震撼视频,机器人完成高难度任务,全程动作丝滑流畅。而这背后,竟是来自一款国内自研「拂晓」仿人自适应机器人。就在刚刚,这家公司又宣布了新一轮的融资。
成立十年,手握超40项专利和临床研究,这家数字医疗公司正以AI为矛,向多个医疗垂直领域发起总攻。
根据Xsignal AI Holo(AI全息)数据库数据,上图呈现出2025年5月中国Web端AI应用类型的发展全景。
Y Combinator 最近在旧金山举办的 AI Startup School 活动,邀请了大量 AI 领域最具影响力的创始人和专家进行现场对谈和演讲,之前 Andrej Karpathy 在活动上的演讲视频爆火,现在 OpenAI CEO Sam Altman 的最新采访也已上线。
强化学习可以提升LLM推理吗?英伟达ProRL用超2000步训练配方给出了响亮的答案。仅15亿参数模型,媲美Deepseek-R1-7B,数学、代码等全面泛化。
LLM 智能体的时代,单个 Agent 的能力已到瓶颈,组建像 “智能体天团” 一样的多智能体系统已经见证了广泛的成功