AI资讯新闻榜单内容搜索-RL

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: RL
「具身大一统」不是口号:北京人形再度登顶WorldArena,拿下双冠王

「具身大一统」不是口号:北京人形再度登顶WorldArena,拿下双冠王

「具身大一统」不是口号:北京人形再度登顶WorldArena,拿下双冠王

最近,全球的网民都化身「监工」,围观了 Figure AI 的人形机器人直播在物流传送带上连续几十个小时,不间断地分拣包裹。

来自主题: AI技术研报
8057 点击    2026-05-18 10:24
当SFT遇上RL:基于样本学习阶段的动态策略优化机制

当SFT遇上RL:基于样本学习阶段的动态策略优化机制

当SFT遇上RL:基于样本学习阶段的动态策略优化机制

过去一段时间里,在围绕大模型推理能力增强的研究中,SFT 和 RL 是两类核心后训练范式 —— 前者稳定收敛快,能高效吸收高质量推理数据;后者更具探索性,有望推动模型实现复杂推理和分布外泛化。

来自主题: AI技术研报
6444 点击    2026-05-18 09:53
解决视频生成穿帮问题!浙大&微软3000条纯文本让模型理解3D

解决视频生成穿帮问题!浙大&微软3000条纯文本让模型理解3D

解决视频生成穿帮问题!浙大&微软3000条纯文本让模型理解3D

浙大联合微软亚洲研究院最新提出的World-R1,不改架构、不要3D数据,纯靠强化学习就让视频生成模型学会了“理解”三维世界。World-R1 的出发点很简单:预训练的视频模型里面已经有 3D 知识了,只是“沉睡”着。用强化学习把它叫醒就行。

来自主题: AI技术研报
8331 点击    2026-05-16 13:34
160行代码读懂LeCun的JEPA世界模型

160行代码读懂LeCun的JEPA世界模型

160行代码读懂LeCun的JEPA世界模型

LeCun念叨了好几年的JEPA,被160行代码给复刻了。GitHub上有个开发者,用极简单文件形式,用PyTorch把JEPA核心系列全部实现了一遍,从I-JEPA到LeWorldModel,五个变体一个没落,就为了——

来自主题: AI资讯
7992 点击    2026-05-15 13:33
ACL 2026|打破推理同质化!阿里达摩院新作让RLVR从重复采样走向有效探索

ACL 2026|打破推理同质化!阿里达摩院新作让RLVR从重复采样走向有效探索

ACL 2026|打破推理同质化!阿里达摩院新作让RLVR从重复采样走向有效探索

I²B-LPO 是一个面向 RLVR 后训练的探索增强框架,通过改进 rollout 策略引导模型生成更多样化的推理轨迹,将探索行为从 “重复采样” 推进到 “在关键节点生成更具区分度的推理轨迹”,在多个数学基准上同时提升准确率与语义多样性,最高分别达 5.3% 和 7.4%。该工作接收于 ACL 2026 Main,来自阿里达摩院 - 智能决策团队。

来自主题: AI技术研报
9165 点击    2026-05-14 14:24
名师一定出高徒?清华团队最新揭秘:别再迷信大模型蒸馏的「免费午餐」

名师一定出高徒?清华团队最新揭秘:别再迷信大模型蒸馏的「免费午餐」

名师一定出高徒?清华团队最新揭秘:别再迷信大模型蒸馏的「免费午餐」

当下的大模型后训练(Post-training)pipeline 中,On-Policy Distillation(OPD)已经成为了明星技术。从 Qwen3、MiMo 到 GLM-5,业界纷纷采用 OPD 并报告了巨大的性能提升。相比于强化学习(RL)稀疏的结果奖励,OPD 提供了密集的 Token 级别监督信号,看起来就像是一顿「免费的午餐」。

来自主题: AI技术研报
9508 点击    2026-05-14 09:59
上海AI Lab新研究:SFT能泛化,只要满足这三个条件

上海AI Lab新研究:SFT能泛化,只要满足这三个条件

上海AI Lab新研究:SFT能泛化,只要满足这三个条件

随着大模型后训练(Post-training)技术的发展,强化学习(RL)在提升模型推理能力方面的表现备受瞩目。

来自主题: AI技术研报
8984 点击    2026-05-13 09:59
一个框架,重塑具身研发流程:Dexbotic走向具身PyTorch

一个框架,重塑具身研发流程:Dexbotic走向具身PyTorch

一个框架,重塑具身研发流程:Dexbotic走向具身PyTorch

近日,原力灵机开源的具身智能原生框架 Dexbotic 宣布正式支持以 RLinf 作为其分布式强化学习后端。对具身智能开发者而言,这不仅是一次普通的工程适配,更意味着 VLA 模型研发中长期存在的「SFT 与 RL 割裂」问题,正在被真正打通。

来自主题: AI技术研报
8718 点击    2026-05-12 14:30
业界首个视觉世界模型综述:迈向更高智能的视觉范式

业界首个视觉世界模型综述:迈向更高智能的视觉范式

业界首个视觉世界模型综述:迈向更高智能的视觉范式

为了理清视觉与世界模型之间的深层联系,并为该领域的未来研究提供一张清晰的脉络图,北京交通大学靳潇杰、魏云超、赵耀等学者联合新加坡国立大学、腾讯、字节等国内外研究机构知名学者,发布了首篇视觉世界模型长篇综述:From Seeing to Knowing the World: A Survey of Vision World Models。

来自主题: AI技术研报
7727 点击    2026-05-10 10:40
离谱,特朗普家族下场卖AI API中转站!

离谱,特朗普家族下场卖AI API中转站!

离谱,特朗普家族下场卖AI API中转站!

太魔幻了,特朗普开始做API中转站了,还有七折的 Claude 可以用。甚至还有机会参加懂王的私人派对。前两天还在跟朋友感慨,连孙雨晨都低调下场搞中转站了,AI API 这门生意是真的下沉到水深火热了。

来自主题: AI资讯
8775 点击    2026-05-07 10:57