AI资讯新闻榜单内容搜索-RL

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: RL
从「知题」到「知人」:UserRL让智能体学会「以人为本」

从「知题」到「知人」:UserRL让智能体学会「以人为本」

从「知题」到「知人」:UserRL让智能体学会「以人为本」

来自 UIUC 与 Salesforce 的研究团队提出了一套系统化方案:UserBench —— 首次将 “用户特性” 制度化,构建交互评测环境,用于专门检验大模型是否真正 “懂人”;UserRL —— 在 UserBench 及其他标准化 Gym 环境之上,搭建统一的用户交互强化学习框架,并系统探索以用户为驱动的奖励建模。

来自主题: AI技术研报
8906 点击    2025-10-08 11:45
清华、NVIDIA、斯坦福提出DiffusionNFT:基于前向过程的扩散强化学习新范式,训练效率提升25倍

清华、NVIDIA、斯坦福提出DiffusionNFT:基于前向过程的扩散强化学习新范式,训练效率提升25倍

清华、NVIDIA、斯坦福提出DiffusionNFT:基于前向过程的扩散强化学习新范式,训练效率提升25倍

清华大学朱军教授团队,NVIDIA Deep Imagination 研究组与斯坦福 Stefano Ermon 团队联合提出了一种全新的扩散模型强化学习(RL)范式 ——Diffusion Negative-aware FineTuning (DiffusionNFT)。该方法首次突破现有 RL 对扩散模型的基本假设,直接在前向加噪过程(forward process)上进行优化

来自主题: AI技术研报
10039 点击    2025-10-08 11:43
苹果再发论文:精准定位LLM幻觉,GPT-5、o3都办不到

苹果再发论文:精准定位LLM幻觉,GPT-5、o3都办不到

苹果再发论文:精准定位LLM幻觉,GPT-5、o3都办不到

论文提出的方法名为 RL4HS,它使用了片段级奖励(span-level rewards)和类别感知的 GRPO(Class-Aware Group Relative Policy Optimization),从而避免模型偷懒、只输出无错误预测。

来自主题: AI资讯
9111 点击    2025-10-07 22:11
100 页 Agentic RL 综述!牛津、新国立、AI Lab 等联合定义 LLM 下半场

100 页 Agentic RL 综述!牛津、新国立、AI Lab 等联合定义 LLM 下半场

100 页 Agentic RL 综述!牛津、新国立、AI Lab 等联合定义 LLM 下半场

来自牛津大学、新加坡国立大学、伊利诺伊大学厄巴纳-香槟分校,伦敦大学学院、帝国理工学院、上海人工智能实验室等等全球 16 家顶尖研究机构的学者,共同撰写并发布了长达百页的综述:《The Landscape of Agentic Reinforcement Learning for LLMs: A Survey》。

来自主题: AI技术研报
8190 点击    2025-10-03 14:15
斯坦福洗碗机器人新作!灵巧手跟人学采茶做早餐,CoRL 2025提名最佳论文

斯坦福洗碗机器人新作!灵巧手跟人学采茶做早餐,CoRL 2025提名最佳论文

斯坦福洗碗机器人新作!灵巧手跟人学采茶做早餐,CoRL 2025提名最佳论文

来自斯坦福大学、哥伦比亚大学、摩根大通AI研究院、卡耐基梅隆大学、英伟达提出了一种数据采集与策略学习框架DexUMI——利用人手作为自然接口将灵巧操作技能迁移至多种灵巧手。该框架通过硬件与软件的双重适配,最大限度缩小人手与各类灵巧手之间的具身差异。

来自主题: AI资讯
9728 点击    2025-10-03 11:46
大神爆肝一个月,复刻DeepMind世界模型,300万参数就能玩实时交互像素游戏

大神爆肝一个月,复刻DeepMind世界模型,300万参数就能玩实时交互像素游戏

大神爆肝一个月,复刻DeepMind世界模型,300万参数就能玩实时交互像素游戏

最近,X 博主 anandmaj 在一个月内复刻 Genie 3 的核心思想,开发出了 TinyWorlds,一个仅 300 万参数的世界模型,能够实时生成可玩的像素风格环境,包括 Pong、Sonic、Zelda 和 Doom。

来自主题: AI资讯
8952 点击    2025-09-29 11:02
陈丹琦新作:大模型强化学习的第三条路,8B小模型超越GPT-4o

陈丹琦新作:大模型强化学习的第三条路,8B小模型超越GPT-4o

陈丹琦新作:大模型强化学习的第三条路,8B小模型超越GPT-4o

结合RLHF+RLVR,8B小模型就能超越GPT-4o、媲美Claude-3.7-Sonnet。陈丹琦新作来了。他们提出了一个结合RLHF和RLVR优点的方法,RLMT(Reinforcement Learning with Model-rewarded Thinking,基于模型奖励思维的强化学习)。

来自主题: AI技术研报
9514 点击    2025-09-28 23:03
AI正在偷走白领工作!OpenAI狂砸10亿教AI上班,你的完美继任者即将上岗

AI正在偷走白领工作!OpenAI狂砸10亿教AI上班,你的完美继任者即将上岗

AI正在偷走白领工作!OpenAI狂砸10亿教AI上班,你的完美继任者即将上岗

Anthropic、OpenAI等大厂,正计划每年投入10亿美元,教会AI像人类一样工作。他们不仅为AI提供强化学习环境(RL environment,简称gym),还让AI「偷师」各领域专家。OpenAI高管预言,未来「整个经济」,将在某种程度上变成一台「RL机器」。

来自主题: AI资讯
8664 点击    2025-09-28 17:23
RLHF与RLVR全都要,陈丹琦团队最新力作将推理能力拓展到通用智能

RLHF与RLVR全都要,陈丹琦团队最新力作将推理能力拓展到通用智能

RLHF与RLVR全都要,陈丹琦团队最新力作将推理能力拓展到通用智能

一个月前,我们曾报道过清华姚班校友、普林斯顿教授陈丹琦似乎加入 Thinking Machines Lab 的消息。有些爆料认为她在休假一年后,会离开普林斯顿,全职加入 Thinking Machines Lab。

来自主题: AI技术研报
7284 点击    2025-09-28 16:46