AI资讯新闻榜单内容搜索-强化学习

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 强化学习
DanceGRPO:首个统一视觉生成的强化学习框架

DanceGRPO:首个统一视觉生成的强化学习框架

DanceGRPO:首个统一视觉生成的强化学习框架

R1 横空出世,带火了 GRPO 算法,RL 也随之成为 2025 年的热门技术探索方向,近期,字节 Seed 团队就在图像生成方向进行了相关探索。

来自主题: AI技术研报
6999 点击    2025-05-15 10:47
OpenAI首席科学家Nature爆料:AI自主发现新科学!世界模型和RL是关键

OpenAI首席科学家Nature爆料:AI自主发现新科学!世界模型和RL是关键

OpenAI首席科学家Nature爆料:AI自主发现新科学!世界模型和RL是关键

近日,《自然》杂志独家专访了OpenAI首席科学家Jakub Pachocki,他揭示了推理模型、强化学习如何赋予AI自主发现科学的能力,并分享了AI如何在五年内重塑科学研究与经济格局的雄心。

来自主题: AI资讯
7867 点击    2025-05-14 11:42
100万美元图灵奖奖金,强化学习师徒想献给科研自由

100万美元图灵奖奖金,强化学习师徒想献给科研自由

100万美元图灵奖奖金,强化学习师徒想献给科研自由

80年代,当强化学习被冷落,这对师徒没有放弃;如今,重看来时路,他们给出的建议仍然是,「坚持」住自己的科研思想。

来自主题: AI资讯
5874 点击    2025-05-13 14:41
9年实现爱因斯坦级AGI?OpenAI科学家Dan Roberts谈强化学习扩展的未来

9年实现爱因斯坦级AGI?OpenAI科学家Dan Roberts谈强化学习扩展的未来

9年实现爱因斯坦级AGI?OpenAI科学家Dan Roberts谈强化学习扩展的未来

近日,在红杉资本主办的 AI Ascent 上,OpenAI 研究科学家 Dan Roberts 做了主题为「接下来的未来 / 扩展强化学习」的演讲,其上传到 YouTube 的版本更是采用了一个更吸引人的标题:「9 年实现 AGI?OpenAI 的 Dan Roberts 推测将如何模拟爱因斯坦。」

来自主题: AI资讯
6796 点击    2025-05-10 17:51
万径归于「概率」,华人学者颠覆认知!英伟达大牛力荐RL微调新作

万径归于「概率」,华人学者颠覆认知!英伟达大牛力荐RL微调新作

万径归于「概率」,华人学者颠覆认知!英伟达大牛力荐RL微调新作

华人学者参与的一项研究,重新确立了强化学习在LLM微调的价值,深度解释了AI训练「两阶段强化学习」的原因。某种意义上,他们的论文说明RL微调就是统计。

来自主题: AI技术研报
8065 点击    2025-05-10 15:10
绝对零监督Absolute Zero:类AlphaZero自博弈赋能大模型推理,全新零数据训练范式问世

绝对零监督Absolute Zero:类AlphaZero自博弈赋能大模型推理,全新零数据训练范式问世

绝对零监督Absolute Zero:类AlphaZero自博弈赋能大模型推理,全新零数据训练范式问世

在人工智能领域,推理能力的进化已成为通向通用智能的核心挑战。近期,Reinforcement Learning with Verifiable Rewards(RLVR)范式下涌现出一批「Zero」类推理模型,摆脱了对人类显式推理示范的依赖,通过强化学习过程自我学习推理轨迹,显著减少了监督训练所需的人力成本。

来自主题: AI技术研报
6882 点击    2025-05-08 14:49
搞不懂CUDA的人有救了,Devin开发商开源Kevin,强化学习生成CUDA内核

搞不懂CUDA的人有救了,Devin开发商开源Kevin,强化学习生成CUDA内核

搞不懂CUDA的人有救了,Devin开发商开源Kevin,强化学习生成CUDA内核

本周三,知名 AI 创业公司,曾发布「全球首个 AI 软件工程师」的 Cognition AI 开源了一款使用强化学习,用于编写 CUDA 内核的大模型 Kevin-32B。

来自主题: AI技术研报
9056 点击    2025-05-07 15:23
万字长文带你读懂强化学习,去中心化强化学习又能否实现?

万字长文带你读懂强化学习,去中心化强化学习又能否实现?

万字长文带你读懂强化学习,去中心化强化学习又能否实现?

强化学习(RL)是当今 AI 领域最热门的词汇之一。近日,一篇长文梳理了新时代的强化学习范式对于模型提升的作用,同时还探索了强化学习对去中心化的意义。

来自主题: AI技术研报
8056 点击    2025-05-07 14:17
VDC+VBench双榜第一!强化学习打磨的国产视频大模型,超越Sora、Pika

VDC+VBench双榜第一!强化学习打磨的国产视频大模型,超越Sora、Pika

VDC+VBench双榜第一!强化学习打磨的国产视频大模型,超越Sora、Pika

随着 Deepseek 等强推理模型的成功,强化学习在大语言模型训练中越来越重要,但在视频生成领域缺少探索。复旦大学等机构将强化学习引入到视频生成领域,经过强化学习优化的视频生成模型,生成效果更加自然流畅,更加合理。并且分别在 VDC(Video Detailed Captioning)[1] 和 VBench [2] 两大国际权威榜单中斩获第一。

来自主题: AI技术研报
8168 点击    2025-05-06 15:07