AI资讯新闻榜单内容搜索-RL

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: RL

田渊栋和Sergey Levine参与开发新型RL算法，能通过多轮训练让智能体学会协作推理

田渊栋和Sergey Levine参与开发新型RL算法，能通过多轮训练让智能体学会协作推理

田渊栋和Sergey Levine参与开发新型RL算法，能通过多轮训练让智能体学会协作推理

强化学习提升了 LLM 各方面的能力，而强化学习本身也在进化。

来自主题: AI技术研报

8261 点击 2025-03-28 10:09

为什么明明很准，奖励模型就是不work？新研究：准确度 is not all you need

为什么明明很准，奖励模型就是不work？新研究：准确度 is not all you need

为什么明明很准，奖励模型就是不work？新研究：准确度 is not all you need

训练狗时不仅要让它知对错，还要给予差异较大的、不同的奖励诱导，设计 RLHF 的奖励模型时也是一样。

来自主题: AI技术研报

10430 点击 2025-03-24 15:33

强化学习也涌现？自监督RL扩展到1000层网络，机器人任务提升50倍

强化学习也涌现？自监督RL扩展到1000层网络，机器人任务提升50倍

强化学习也涌现？自监督RL扩展到1000层网络，机器人任务提升50倍

虽然大多数强化学习（RL）方法都在使用浅层多层感知器（MLP），但普林斯顿大学和华沙理工的新研究表明，将对比 RL（CRL）扩展到 1000 层可以显著提高性能，在各种机器人任务中，性能可以提高最多 50 倍。

来自主题: AI技术研报

7751 点击 2025-03-22 15:55

美国上诉法院就AI作出标志性判决（附判决书PDF）

美国上诉法院就AI作出标志性判决（附判决书PDF）

美国上诉法院就AI作出标志性判决（附判决书PDF）

3月18日，美国哥伦比亚特区巡回上诉法院就科学家Stephen Thaler（史蒂芬·泰勒博士，下称泰勒）诉Shira Perlmutter（美国版权局注册官及美国版权办公室主任）以及美国版权局作出标志性判决，认定所有受版权保护的作品必须首先由人类创作。尽管AI技术的发展使得非人类创作的作品越来越多，但根据现有的法律框架，这些作品无法获得版权保护。

来自主题: AI监管政策

12502 点击 2025-03-22 11:43

单张照片实现三维重建，单视角室外复杂场景首次攻克｜西湖大学&港科大&Everlyn AI

单张照片实现三维重建，单视角室外复杂场景首次攻克｜西湖大学&港科大&Everlyn AI

单张照片实现三维重建，单视角室外复杂场景首次攻克｜西湖大学&港科大&Everlyn AI

单视角三维场景重建一直是计算机视觉领域中的核心挑战之一，尤其在捕捉高保真室外场景细节时，如何确保结构一致性和几何精度显得尤为困难。

来自主题: AI技术研报

9204 点击 2025-03-21 10:40

01年实习生被曝负责字节RL核心算法！系字节LLM攻坚小组成员

01年实习生被曝负责字节RL核心算法！系字节LLM攻坚小组成员

01年实习生被曝负责字节RL核心算法！系字节LLM攻坚小组成员

一个超越DeepSeek GRPO的关键RL算法出现了！这个算法名为DAPO，字节、清华AIR联合实验室SIA Lab出品，现已开源。禹棋赢，01年生，本科毕业于哈工大，直博进入清华AIR，目前博士三年级在读。去年年中，他以研究实习生的身份加入字节首次推出的「Top Seed人才计划」。

来自主题: AI资讯

9461 点击 2025-03-20 23:06

DeepSearch/DeepResearch中最优文本段选择和URL重排

DeepSearch/DeepResearch中最优文本段选择和URL重排

DeepSearch/DeepResearch中最优文本段选择和URL重排

如果你已经读过我们上一篇经典长文《DeepSearch/DeepResearch 的设计与实现》，那么不妨再深挖一些能大幅提升回答质量的细节。这次，我们将重点关注两个细节：

来自主题: AI技术研报

10745 点击 2025-03-20 09:57

超越DeepSeek GRPO的关键RL算法，字节、清华AIR开源DAPO

超越DeepSeek GRPO的关键RL算法，字节、清华AIR开源DAPO

超越DeepSeek GRPO的关键RL算法，字节、清华AIR开源DAPO

DeepSeek 提出的 GRPO 可以极大提升 LLM 的强化学习效率，不过其论文中似乎还缺少一些关键细节，让人难以复现出大规模和工业级的强化学习系统。

来自主题: AI技术研报

6244 点击 2025-03-18 17:14

超越DeepSeek-R1关键RL算法GRPO，CMU「元强化微调」新范式登场

超越DeepSeek-R1关键RL算法GRPO，CMU「元强化微调」新范式登场

超越DeepSeek-R1关键RL算法GRPO，CMU「元强化微调」新范式登场

大语言模型（LLM）在推理领域的最新成果表明了通过扩展测试时计算来提高推理能力的潜力，比如 OpenAI 的 o1 系列。

来自主题: AI技术研报

8000 点击 2025-03-13 14:41

阿里开源R1-Omni，DeepSeek同款RLVR首度结合全模态情感识别，网友：可解释性+多模态学习=下一代AI

阿里开源R1-Omni，DeepSeek同款RLVR首度结合全模态情感识别，网友：可解释性+多模态学习=下一代AI

阿里开源R1-Omni，DeepSeek同款RLVR首度结合全模态情感识别，网友：可解释性+多模态学习=下一代AI

首次将DeepSeek同款RLVR应用于全模态LLM，含视频的那种！

来自主题: AI技术研报

8446 点击 2025-03-11 17:34

上一页当前第26页,共43页下一页