AI资讯新闻榜单内容搜索-强化学习

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 强化学习
全球开发者组团训练,首个异步强化学习32B推理模型震撼来袭!数据已开源

全球开发者组团训练,首个异步强化学习32B推理模型震撼来袭!数据已开源

全球开发者组团训练,首个异步强化学习32B推理模型震撼来袭!数据已开源

全球首个去中心化强化学习训练的32B模型——INTELLECT-2震撼发布!无需授权,就能用自家异构计算资源参与其中,让编码、数学与科学领域的推理性能迈向新高度。

来自主题: AI资讯
9011 点击    2025-04-27 09:38
Hugging Face论文热榜第一!AI推理新方法,打破强化学习天花板,全面开源

Hugging Face论文热榜第一!AI推理新方法,打破强化学习天花板,全面开源

Hugging Face论文热榜第一!AI推理新方法,打破强化学习天花板,全面开源

本文提出 LUFFY 强化学习方法,一种结合离线专家示范与在线强化学习的推理训练范式,打破了“模仿学习只学不练、强化学习只练不学”的传统壁垒。LUFFY 通过将高质量专家示范制定为一种离策略指引,并引入混合策略优化与策略塑形机制,稳定地实现了在保持探索能力的同时高效吸收强者经验。

来自主题: AI技术研报
6529 点击    2025-04-27 09:22
DeepMind果蝇登Nature,强化学习再立功!AI模拟飞行,逼真到腿毛颤抖

DeepMind果蝇登Nature,强化学习再立功!AI模拟飞行,逼真到腿毛颤抖

DeepMind果蝇登Nature,强化学习再立功!AI模拟飞行,逼真到腿毛颤抖

谷歌DeepMind与HHMI Janelia研究所的科学家们,用AI打造了一个栩栩如生的虚拟果蝇模型。这个模型不仅能精准模拟果蝇的飞行与行走,还通过深度强化学习模仿真实果蝇的行为。

来自主题: AI资讯
9063 点击    2025-04-25 10:31
Adam获时间检验奖!清华揭示保辛动力学本质,提出全新RAD优化器

Adam获时间检验奖!清华揭示保辛动力学本质,提出全新RAD优化器

Adam获时间检验奖!清华揭示保辛动力学本质,提出全新RAD优化器

Adam优化器是深度学习中常用的优化算法,但其性能背后的理论解释一直不完善。近日,来自清华大学的团队提出了RAD优化器,扩展了Adam的理论基础,提升了训练稳定性。实验显示RAD在多种强化学习任务中表现优于Adam。

来自主题: AI技术研报
7917 点击    2025-04-23 14:09
业内首次! 全面复现DeepSeek-R1-Zero数学代码能力,训练步数仅需其1/10

业内首次! 全面复现DeepSeek-R1-Zero数学代码能力,训练步数仅需其1/10

业内首次! 全面复现DeepSeek-R1-Zero数学代码能力,训练步数仅需其1/10

OpenAI 的 o1 系列和 DeepSeek-R1 的成功充分证明,大规模强化学习已成为一种极为有效的方法,能够激发大型语言模型(LLM) 的复杂推理行为并显著提升其能力。

来自主题: AI技术研报
6812 点击    2025-04-23 14:04
硅谷AI初创要让60亿人失业,网友痛批人类叛徒!Jeff Dean已投

硅谷AI初创要让60亿人失业,网友痛批人类叛徒!Jeff Dean已投

硅谷AI初创要让60亿人失业,网友痛批人类叛徒!Jeff Dean已投

AI的野心从未如此大胆!新创公司Mechanize目标直指「全面自动化所有工作」和「经济无人化」,瞄准全球60万亿美元的劳动力市场。从虚拟工作环境到强化学习,Mechanize计划用AI智能体取代人类岗位,引发巨大争议。

来自主题: AI资讯
8923 点击    2025-04-22 09:06
UIUC联手谷歌发布Search-R1:大模型学会「边想边查」,推理、搜索无缝切换

UIUC联手谷歌发布Search-R1:大模型学会「边想边查」,推理、搜索无缝切换

UIUC联手谷歌发布Search-R1:大模型学会「边想边查」,推理、搜索无缝切换

DeepSeek-R1 展示了强化学习在提升模型推理能力方面的巨大潜力,尤其是在无需人工标注推理过程的设定下,模型可以学习到如何更合理地组织回答。然而,这类模型缺乏对外部数据源的实时访问能力,一旦训练语料中不存在某些关键信息,推理过程往往会因知识缺失而失败。

来自主题: AI技术研报
6991 点击    2025-04-22 09:02