AI资讯新闻榜单内容搜索-RL

人机协同筛出2600万条数据，七项基准全部SOTA，昆仑万维开源奖励模型再迎新突破

大语言模型（LLM）以生成能力强而著称，但如何能让它「听话」，是一门很深的学问。基于人类反馈的强化学习（RLHF）就是用来解决这个问题的，其中的奖励模型（Reward Model, RM）扮演着重要的裁判作用，它专门负责给 LLM 生成的内容打分，告诉模型什么是好，什么是不好，可以保证大模型的「三观」正确。

来自主题: AI技术研报

8715 点击 2025-07-05 12:10

首次！世界模型、动作模型融合，全自回归模型WorldVLA来了

阿里巴巴达摩院提出了 WorldVLA, 首次将世界模型 (World Model) 和动作模型 (Action Model/VLA Model) 融合到了一个模型中。WorldVLA 是一个统一了文本、图片、动作理解和生成的全自回归模型。

来自主题: AI技术研报

8402 点击 2025-07-03 18:59

周志华团队新作：LLM中存在奖励模型，首次理论证明RL对LLM有效性

将大语言模型（LLMs）与复杂的人类价值观对齐，仍然是 AI 面临的一个核心挑战。当前主要的方法是基于人类反馈的强化学习（RLHF）。该流程依赖于一个通过人类偏好训练的奖励模型来对模型输出进行评分，最终对齐后的 LLM 的质量在根本上取决于该奖励模型的质量。

来自主题: AI技术研报

9718 点击 2025-07-03 10:00

抓住人们对“Soulmate”的渴望，20天入账200万美金？

6 月 17 日，一款 AI 占星产品 Starla-Call the Universe 进入了 iOS 美国下载总榜前 10，当笔者以为这又是一个昙花一现的产品时，它不仅能够持续坚守榜单 Top 10 长达半个月，而且到了 6 月 24 日，另一款产品 Astra-Life Advice 也进入了美榜前 10，两款同类产品相继进入 Top 10，并双双持续在榜超 1 周的时间。

来自主题: AI资讯

7986 点击 2025-07-02 11:39

性能提升84%-166%！L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源

大模型可以不再依赖人类调教，真正“自学成才”啦？新研究仅通过RLVR（可验证奖励的强化学习），成功让模型自主进化出通用的探索、验证与记忆能力，让模型学会“自学”！

来自主题: AI技术研报

7685 点击 2025-07-01 10:06

强化学习也能预训练？效果可提升20倍，华人新作引爆RL新范式!

大模型的预训练-微调范式，正在悄然改写强化学习！伯克利团队提出新方法InFOM，不依赖奖励信号，也能在多个任务中实现超强迁移，还能做到「读心术」级别的推理。这到底怎么做到的？

来自主题: AI技术研报

7514 点击 2025-06-30 10:52

用文字创造宇宙：Runway 推出全新 AI 游戏创作平台「Game Worlds」！

在 AI 生成技术不断颠覆创意行业的今天，Runway 再次迈出了激动人心的一步。作为全球领先的生成式 AI 公司，Runway 长期致力于打造下一代艺术与娱乐工具。

来自主题: AI资讯

9895 点击 2025-06-27 11:34

突破通用领域推理的瓶颈！清华NLP实验室强化学习新研究RLPR

Deepseek 的 R1、OpenAI 的 o1/o3 等推理模型的出色表现充分展现了 RLVR（Reinforcement Learning with Verifiable Reward

来自主题: AI技术研报

10309 点击 2025-06-27 10:03

具身世界模型新突破，地平线 & 极佳提出几何一致视频世界模型增强机器人策略学习

近年来，随着人工智能从感知智能向决策智能演进，世界模型（World Models）逐渐成为机器人领域的重要研究方向。世界模型旨在让智能体对环境进行建模并预测未来状态，从而实现更高效的规划与决策。

来自主题: AI技术研报

8970 点击 2025-06-26 16:05

重磅！淘天联合爱橙开源强化学习训练框架ROLL，高效支持十亿到千亿参数大模型训练

过去几年，随着基于人类偏好的强化学习（Reinforcement Learning from Human Feedback，RLHF）的兴起，强化学习（Reinforcement Learning，RL）已成为大语言模型（Large Language Model，LLM）后训练阶段的关键技术。

来自主题: AI技术研报

8015 点击 2025-06-25 16:55