AI资讯新闻榜单内容搜索-RL

首个系统性工具使用奖励范式，ToolRL刷新大模型训练思路

「工欲善其事，必先利其器。」如今，人工智能正以前所未有的速度革新人类认知的边界，而工具的高效应用已成为衡量人工智能真正智慧的关键标准。

来自主题: AI技术研报

6013 点击 2025-04-28 14:53

RL + LLM 升级之路的四层阶梯。

来自主题: AI技术研报

8071 点击 2025-04-24 18:21

无需数据标注，在测试时做强化学习，模型数学能力暴增159%！

来自主题: AI技术研报

7976 点击 2025-04-24 16:55

在大语言模型（LLMs）竞争日趋白热化的今天，「推理能力」已成为评判模型优劣的关键指标。

来自主题: AI技术研报

6535 点击 2025-04-24 14:29

新加坡-麻省理工学院研究联盟、新加坡 A*SRL 实验室、新加坡国立大学、美国麻省理工学院的联合研究团队，提出了一种结合紫外吸收光谱与机器学习的检测方法，能在 30 分钟内完成细胞培养上清液的微生物污染检测。

来自主题: AI技术研报

6915 点击 2025-04-24 08:52

Transformer作者Ashish Vaswani团队重磅LLM研究！简单指令：「Wait，」就能有效激发LLM显式反思，表现堪比直接告知模型存在错误。

来自主题: AI技术研报

7107 点击 2025-04-23 10:47

只靠模型尺寸变大已经不行了？大语言模型（LLM）推理需要强化学习（RL）来「加 buff」。

来自主题: AI技术研报

7266 点击 2025-04-22 16:58

当前，强化学习（RL）方法在最近模型的推理任务上取得了显著的改进，比如 DeepSeek-R1、Kimi K1.5，显示了将 RL 直接用于基础模型可以取得媲美 OpenAI o1 的性能不过，基于 RL 的后训练进展主要受限于自回归的大语言模型（LLM），它们通过从左到右的序列推理来运行。

来自主题: AI技术研报

5274 点击 2025-04-22 08:39

强化学习之父Richard Sutton和DeepMind强化学习副总裁David Silver对我们发出了当头棒喝：如今，人类已经由数据时代踏入经验时代。通往ASI之路要靠RL，而非人类数据！

来自主题: AI技术研报

8247 点击 2025-04-21 10:52

o3编码直逼全球TOP 200人类选手，却存在一个致命问题：幻觉率高达33%，是o1的两倍。Ai2科学家直指，RL过度优化成硬伤。

来自主题: AI技术研报

7135 点击 2025-04-21 09:41