AI资讯新闻榜单内容搜索-RL

4500美元复刻DeepSeek神话，1.5B战胜o1-preview只用RL！训练细节全公开

只用4500美元成本，就能成功复现DeepSeek？就在刚刚，UC伯克利团队只用简单的RL微调，就训出了DeepScaleR-1.5B-Preview，15亿参数模型直接吊打o1-preview，震撼业内。

来自主题: AI资讯

7099 点击 2025-02-11 15:26

朱哲清，从Meta走出的AI实战派，为什么说现在的Agent还都不够智能？让RL理论走进现实的破局之道

本期我们有幸邀请到了Pokee AI创始人朱哲清Bill，凭借Bill在Meta和斯坦福大学的丰富经验，尤其是在大规模部署强化学习模型服务数十亿用户方面的实践，他发现了强化学习的巨大潜力。Pokee AI致力于开发卓越的交互式、个性化、高效的AI Agent，结合团队深厚的强化学习专长，打造具备规划、推理和工具使用能力的解决方案，同时减少现有 AI 系统的幻觉问题。

来自主题: AI资讯

7940 点击 2025-02-11 14:03

推理时也能做偏好优化，无需额外重训练，来自上海AI Lab港中文等

传统的偏好对⻬⽅法，如基于⼈类反馈的强化学习（RLHF）和直接偏好优化（DPO），依赖于训练过程中的模型参数更新，但在⾯对不断变化的数据和需求时，缺乏⾜够的灵活性来适应这些变化。

来自主题: AI技术研报

6987 点击 2025-02-10 17:19

华人研究团队揭秘：DeepSeek-R1-Zero或许并不存在「顿悟时刻」

一项非常鼓舞人心的发现是：DeepSeek-R1-Zero 通过纯强化学习（RL）实现了「顿悟」。在那个瞬间，模型学会了自我反思等涌现技能，帮助它进行上下文搜索，从而解决复杂的推理问题。

来自主题: AI技术研报

7937 点击 2025-02-07 15:51

全面梳理200+篇前沿论文，视觉生成模型理解物理世界规律的通关密码，都在这篇综述里了！

当下，视频生成备受关注，有望成为处理物理知识的 “世界模型” （World Model），助力自动驾驶、机器人等下游任务。然而，当前模型在从 “生成” 迈向世界建模的过程中，存在关键短板 —— 对真实世界物理规律的刻画能力不足。

来自主题: AI技术研报

7567 点击 2025-02-02 19:07

豆包团队视频生成新突破：无需语言模型，仅凭“视觉”就能学习复杂任务

现在，豆包大模型团队联合北京交通大学、中国科学技术大学提出了VideoWorld。

来自主题: AI技术研报

6491 点击 2025-01-31 13:53

超全推理语言模型蓝图来了！揭开o1、o3、DeepSeek-V3神秘面纱

ETH Zurich等机构提出了推理语言模型（RLM）蓝图，超越LLM局限，更接近AGI，有望人人可用o3这类强推理模型。

来自主题: AI技术研报

6922 点击 2025-01-28 12:20

CityDreamer4D: 下一个世界模型，何必是视频生成模型？

在过去的两年里，城市场景生成技术迎来了飞速发展，一个全新的概念 ——世界模型（World Model）也随之崛起。当前的世界模型大多依赖 Video Diffusion Models（视频扩散模型）强大的生成能力，在城市场景合成方面取得了令人瞩目的突破。然而，这些方法始终面临一个关键挑战：如何在视频生成过程中保持多视角一致性？

来自主题: AI技术研报

5282 点击 2025-01-28 11:53

28年AGI撞上数据墙，以后全靠测试时计算？CMU详解优化原理

2028年，预计高质量数据将要耗尽，数据Scaling走向尽头。2025年，测试时计算将开始成为主导AI通向通用人工智能（AGI）的新一代Scaling Law。近日，CMU机器学习系博客发表新的技术文章，从元强化学习（meta RL）角度，详细解释了如何优化LLM测试时计算。

来自主题: AI技术研报

5811 点击 2025-01-27 14:03

纯视觉方案，精准操控电脑和手机！港大Aria-UI登顶，超越Claude 3.5

Aria-UI通过纯视觉理解，实现了GUI指令的精准定位，无需依赖后台数据，简化了部署流程；在AndroidWorld和OSWorld等权威基准测试中表现出色，分别获得第一名和第三名，展示了强大的跨平台自动化能力。

来自主题: AI技术研报

9261 点击 2025-01-09 10:54