AI资讯新闻榜单内容搜索-RL

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: RL
受R1启发,微软亚洲发布Logic-RL,帮助LLM通过RL解决"骑士与骗子"逻辑谜题

受R1启发,微软亚洲发布Logic-RL,帮助LLM通过RL解决"骑士与骗子"逻辑谜题

受R1启发,微软亚洲发布Logic-RL,帮助LLM通过RL解决"骑士与骗子"逻辑谜题

本文深入解析一项开创性研究——"Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning",该研究通过基于规则的强化学习技术显著提升了语言模型的推理能力。微软亚洲的研究团队受DeepSeek-R1成功经验的启发,利用结构化的逻辑谜题作为训练场,为模型创建了一个可以系统学习和改进推理技能的环境。

来自主题: AI技术研报
6504 点击    2025-02-26 09:56
1/30训练步骤复刻DeepSeek-R1-Zero,沈向洋姜大昕张祥雨等开源推理模型RL训练方法

1/30训练步骤复刻DeepSeek-R1-Zero,沈向洋姜大昕张祥雨等开源推理模型RL训练方法

1/30训练步骤复刻DeepSeek-R1-Zero,沈向洋姜大昕张祥雨等开源推理模型RL训练方法

DeepSeek啥都开源了,就是没有开源训练代码和数据。现在,开源RL训练方法只需要用1/30的训练步骤就能赶上相同尺寸的DeepSeek-R1-Zero蒸馏Qwen。

来自主题: AI技术研报
7983 点击    2025-02-22 21:30
10美元成功复现DeepSeek顿悟时刻,3B模型爆发超强推理!微软论文实锤涌现

10美元成功复现DeepSeek顿悟时刻,3B模型爆发超强推理!微软论文实锤涌现

10美元成功复现DeepSeek顿悟时刻,3B模型爆发超强推理!微软论文实锤涌现

不到10美元,3B模型就能复刻DeepSeek的顿悟时刻了?来自荷兰的开发者采用轻量级的RL算法Reinforce-Lite,把复刻成本降到了史上最低!同时,微软亚研院的一项工作,也受DeepSeek-R1启发,让7B模型涌现出了高级推理技能。

来自主题: AI技术研报
6131 点击    2025-02-22 15:50
机器人视觉控制新范式!ByteDance Research新算法实现通过性能SOTA

机器人视觉控制新范式!ByteDance Research新算法实现通过性能SOTA

机器人视觉控制新范式!ByteDance Research新算法实现通过性能SOTA

世界模型(World Model)作为近年来机器学习和强化学习的研究热点,通过建立智能体对其所处环境的一种内部表征和模拟,能够加强智能体对于世界的理解,进而更好地进行规划和决策。

来自主题: AI技术研报
6819 点击    2025-02-21 14:28
一键将老视频超清修复,Topaz出的这个新AI工具有点强。

一键将老视频超清修复,Topaz出的这个新AI工具有点强。

一键将老视频超清修复,Topaz出的这个新AI工具有点强。

经常有群友问我有没有什么把视频修复的工具。而我过去最推荐的,也是我心中目前最牛逼的视频修复工具,自然就是TopazVideoAI了。但,斗转星移,日月如梭,现在已经2025年了。我们在进化,而Topaz他们家,自然也再进化,前两天他们家又整了个新活,搞了个叫Starlight的新东西。

来自主题: AI资讯
7061 点击    2025-02-21 10:41
AI游戏设计师问世,自学成才,无需任何先前知识

AI游戏设计师问世,自学成才,无需任何先前知识

AI游戏设计师问世,自学成才,无需任何先前知识

游戏开发不仅需要生成新颖的内容,更需要在保持游戏世界一致性、多样性和用户修改持续性方面达到高度平衡。近日,一篇发表在Nature上的研究论文World and Human Action Models towards Gameplay Ideation揭示了如何利用生成式AI模型推动游戏玩法创意的生成。

来自主题: AI技术研报
8058 点击    2025-02-20 10:20
阿联酋AI部长对谈李彦宏:自动驾驶比人开车安全 10 倍!萝卜快跑出险率仅为人类驾驶员 1/14

阿联酋AI部长对谈李彦宏:自动驾驶比人开车安全 10 倍!萝卜快跑出险率仅为人类驾驶员 1/14

阿联酋AI部长对谈李彦宏:自动驾驶比人开车安全 10 倍!萝卜快跑出险率仅为人类驾驶员 1/14

2月11日,在阿联酋迪拜举办的World Governments Summit 2025峰会上,百度创始人李彦宏与阿联酋AI部长奥马尔·苏丹·奥拉马(Omar Sultan AI Olama)对谈时表示,尽管技术进步、成本降低,但仍需持续投入AI基础设施,以确保处于技术创新的最前沿。

来自主题: AI资讯
5900 点击    2025-02-12 11:53
8卡32B模型超越o1预览版、DeepSeek V3,普林斯顿、北大提出层次化RL推理新范式

8卡32B模型超越o1预览版、DeepSeek V3,普林斯顿、北大提出层次化RL推理新范式

8卡32B模型超越o1预览版、DeepSeek V3,普林斯顿、北大提出层次化RL推理新范式

推理大语言模型(LLM),如 OpenAI 的 o1 系列、Google 的 Gemini、DeepSeek 和 Qwen-QwQ 等,通过模拟人类推理过程,在多个专业领域已超越人类专家,并通过延长推理时间提高准确性。推理模型的核心技术包括强化学习(Reinforcement Learning)和推理规模(Inference scaling)。

来自主题: AI技术研报
5713 点击    2025-02-12 11:33