AI资讯新闻榜单内容搜索-强化学习

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 强化学习

强化学习也涌现？自监督RL扩展到1000层网络，机器人任务提升50倍

强化学习也涌现？自监督RL扩展到1000层网络，机器人任务提升50倍

强化学习也涌现？自监督RL扩展到1000层网络，机器人任务提升50倍

虽然大多数强化学习（RL）方法都在使用浅层多层感知器（MLP），但普林斯顿大学和华沙理工的新研究表明，将对比 RL（CRL）扩展到 1000 层可以显著提高性能，在各种机器人任务中，性能可以提高最多 50 倍。

来自主题: AI技术研报

7161 点击 2025-03-22 15:55

Atlas机器人越来越像人了！强化学习加持爬行、翻跟头、跳街舞，已安排进厂打工

Atlas机器人越来越像人了！强化学习加持爬行、翻跟头、跳街舞，已安排进厂打工

Atlas机器人越来越像人了！强化学习加持爬行、翻跟头、跳街舞，已安排进厂打工

波士顿动力的Atlas机器人又双叒叕来了！从最初的液压「电缆尾巴」到现在全电动AI增强版，这个机器人不仅会翻跟头、跳街舞，还学会了倒立侧翻，甚至开始「进厂打工」搬零件。动作捕捉技术与强化学习的加持，让Atlas的动作越来越像人类，而它的目标也从炫技转向实用。

来自主题: AI资讯

6953 点击 2025-03-20 17:24

啪啪打脸！Search-R1让DeepSeek-R1实时获取信息，实现26%提升的争议与启发 | 最新

啪啪打脸！Search-R1让DeepSeek-R1实时获取信息，实现26%提升的争议与启发 | 最新

啪啪打脸！Search-R1让DeepSeek-R1实时获取信息，实现26%提升的争议与启发 | 最新

本文介绍了Search-R1技术，这是一项通过强化学习训练大语言模型进行推理并利用搜索引擎的创新方法。实验表明，Search-R1在Qwen2.5-7B模型上实现了26%的性能提升，使模型能够实时获取准确信息并进行多轮推理。本文详细分析了Search-R1的工作原理、训练方法和实验结果，为AI产品开发者提供了重要参考。

来自主题: AI技术研报

9874 点击 2025-03-20 09:48

深度学习的平衡之道：港科大、港城大等团队联合发布多目标优化最新综述

深度学习的平衡之道：港科大、港城大等团队联合发布多目标优化最新综述

深度学习的平衡之道：港科大、港城大等团队联合发布多目标优化最新综述

近年来，深度学习技术在自动驾驶、计算机视觉、自然语言处理和强化学习等领域取得了突破性进展。然而，在现实场景中，传统单目标优化范式在应对多任务协同优化、资源约束以及安全性 - 公平性权衡等复杂需求时，逐渐暴露出其方法论的局限性。

来自主题: AI技术研报

5445 点击 2025-03-19 10:30

超越DeepSeek GRPO的关键RL算法，字节、清华AIR开源DAPO

超越DeepSeek GRPO的关键RL算法，字节、清华AIR开源DAPO

超越DeepSeek GRPO的关键RL算法，字节、清华AIR开源DAPO

DeepSeek 提出的 GRPO 可以极大提升 LLM 的强化学习效率，不过其论文中似乎还缺少一些关键细节，让人难以复现出大规模和工业级的强化学习系统。

来自主题: AI技术研报

5310 点击 2025-03-18 17:14

使用DeepSeek的GRPO，7B模型只需强化学习就能拿下数独

使用DeepSeek的GRPO，7B模型只需强化学习就能拿下数独

使用DeepSeek的GRPO，7B模型只需强化学习就能拿下数独

没有任何冷启动数据，7B 参数模型能单纯通过强化学习学会玩数独吗？

来自主题: AI技术研报

8421 点击 2025-03-11 17:03

让SFT重新伟大！CMU等华人学者提出全新「批判式微调」，媲美复刻版DeepSeek

让SFT重新伟大！CMU等华人学者提出全新「批判式微调」，媲美复刻版DeepSeek

让SFT重新伟大！CMU等华人学者提出全新「批判式微调」，媲美复刻版DeepSeek

在面对复杂的推理任务时，SFT往往让大模型显得力不从心。最近，CMU等机构的华人团队提出了「批判性微调」（CFT）方法，仅在 50K 样本上训练，就在大多数基准测试中优于使用超过200万个样本的强化学习方法。

来自主题: AI技术研报

7440 点击 2025-03-09 13:32

7B的DeepSeek蒸馏Qwen数学超o1！在测试时间强化学习，MIT积分题大赛考93分

7B的DeepSeek蒸馏Qwen数学超o1！在测试时间强化学习，MIT积分题大赛考93分

7B的DeepSeek蒸馏Qwen数学超o1！在测试时间强化学习，MIT积分题大赛考93分

见识过32B的QwQ追平671的DeepSeek R1后——刚刚，7B的DeepSeek蒸馏Qwen模型超越o1又是怎么一回事？新方法LADDER，通过递归问题分解实现AI模型的自我改进，同时不需要人工标注数据。

来自主题: AI技术研报

5126 点击 2025-03-08 10:38

图灵奖颁给强化学习师徒，一个造船改行写代码，一个痛批AI投身AGI

图灵奖颁给强化学习师徒，一个造船改行写代码，一个痛批AI投身AGI

图灵奖颁给强化学习师徒，一个造船改行写代码，一个痛批AI投身AGI

他们为ChatGPT/AlphaGo奠定基石

来自主题: AI资讯

8585 点击 2025-03-06 16:32

刚刚，2024图灵奖颁给了强化学习之父Richard Sutton与导师Andrew Barto

刚刚，2024图灵奖颁给了强化学习之父Richard Sutton与导师Andrew Barto

刚刚，2024图灵奖颁给了强化学习之父Richard Sutton与导师Andrew Barto

强化学习先驱 Andrew Barto 与 Richard Sutton 获得今年的 ACM 图灵奖。

来自主题: AI资讯

6392 点击 2025-03-06 10:48

上一页当前第18页,共28页下一页