AI资讯新闻榜单内容搜索-RL

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: RL

港大联手月之暗面等开源OpenCUA：人人可造专属电脑智能体

港大联手月之暗面等开源OpenCUA：人人可造专属电脑智能体

港大联手月之暗面等开源OpenCUA：人人可造专属电脑智能体

刚刚，一篇来自香港大学 XLANG Lab 和月之暗面等多家机构的论文上线了 arXiv，其中提出了一个用于构建和扩展 CUA（使用计算机的智能体）的完全开源的框架。使用该框架，他们还构建了一个旗舰模型 OpenCUA-32B，其在 OSWorld-Verified 上达到了 34.8% 的成功率，创下了新的开源 SOTA，甚至在这个基准测试中超越了 GPT-4o。

来自主题: AI技术研报

8257 点击 2025-08-14 09:39

研究者警告：强化学习暗藏「策略悬崖」危机，AI对齐的根本性挑战浮现

研究者警告：强化学习暗藏「策略悬崖」危机，AI对齐的根本性挑战浮现

研究者警告：强化学习暗藏「策略悬崖」危机，AI对齐的根本性挑战浮现

强化学习（RL）是锻造当今顶尖大模型（如 OpenAI o 系列、DeepSeek-R1、Gemini 2.5、Grok 4、GPT-5）推理能力与对齐的核心 “武器”，但它也像一把双刃剑，常常导致模型行为脆弱、风格突变，甚至出现 “欺骗性对齐”、“失控” 等危险倾向。

来自主题: AI技术研报

7188 点击 2025-08-13 16:29

大型语言模型稳定强化学习的新路径：几何平均策略优化GMPO

大型语言模型稳定强化学习的新路径：几何平均策略优化GMPO

大型语言模型稳定强化学习的新路径：几何平均策略优化GMPO

近年来，强化学习（RL）在大型语言模型（LLM）的微调过程中，尤其是在推理能力提升方面，取得了显著的成效。传统的强化学习方法，如近端策略优化（Proximal Policy Optimization，PPO）及其变种，包括组相对策略优化（Group Relative Policy Optimization，GRPO），在处理复杂推理任务时表现出了强大的潜力。

来自主题: AI技术研报

5938 点击 2025-08-13 16:03

让强化学习快如闪电：FlashRL一条命令实现极速Rollout，已全部开源

让强化学习快如闪电：FlashRL一条命令实现极速Rollout，已全部开源

让强化学习快如闪电：FlashRL一条命令实现极速Rollout，已全部开源

在今年三月份，清华 AIR 和字节联合 SIA Lab 发布了 DAPO，即 Decoupled Clip and Dynamic sAmpling Policy Optimization（解耦剪辑和动态采样策略优化）。

来自主题: AI技术研报

6557 点击 2025-08-13 11:27

李飞飞押注的「世界模型」，中国自研Matrix-3D已抢先实现了？

李飞飞押注的「世界模型」，中国自研Matrix-3D已抢先实现了？

李飞飞押注的「世界模型」，中国自研Matrix-3D已抢先实现了？

中国自研世界模型Matrix-3D只需单张图就能生成可自由探索的3D世界，不仅效果对标李飞飞的World Labs，而且还能实现更大范围的探索空间，率先进入AI理解世界的前沿领域。

来自主题: AI资讯

5894 点击 2025-08-12 15:36

独家丨星海图将发布首个开放世界真机数据集及VLA开源模型

独家丨星海图将发布首个开放世界真机数据集及VLA开源模型

独家丨星海图将发布首个开放世界真机数据集及VLA开源模型

硅星人独家了解到，星海图即将开源全球首个开放场景高质量真机数据集Galaxea Open-World Dataset，及其G0-快慢双系统全身智能VLA模型。这一举动无疑在相对各自为战的机器人行业打开了一条新的路径。

来自主题: AI资讯

8919 点击 2025-08-11 14:05

告别数据标注！SQLM让大模型自我博弈，RL自主推理新范式！

告别数据标注！SQLM让大模型自我博弈，RL自主推理新范式！

告别数据标注！SQLM让大模型自我博弈，RL自主推理新范式！

一句话概括，本文探索了语言模型的终极内卷模式：不再依赖人类投喂，通过“自问自答”的左右互搏，硬生生把自己逼成了学霸。AlphaGo下棋我懂，这大模型自己给自己出数学题做就有点离谱了，堪称AI界的“闭关修炼”，出关即无敌。

来自主题: AI资讯

7590 点击 2025-08-10 14:29

ARPO：智能体强化策略优化，让Agent在关键时刻多探索一步

ARPO：智能体强化策略优化，让Agent在关键时刻多探索一步

ARPO：智能体强化策略优化，让Agent在关键时刻多探索一步

在可验证强化学习（RLVR）的推动下，大语言模型在单轮推理任务中已展现出不俗表现。然而在真实推理场景中，LLM 往往需要结合外部工具进行多轮交互，现有 RL 算法在平衡模型的长程推理与多轮工具交互能力方面仍存在不足。

来自主题: AI技术研报

5862 点击 2025-08-10 13:29

独家｜陈天桥布局端到端Deep Research生态赛道，MiroMind发布全栈开源深度研究项目ODR

独家｜陈天桥布局端到端Deep Research生态赛道，MiroMind发布全栈开源深度研究项目ODR

独家｜陈天桥布局端到端Deep Research生态赛道，MiroMind发布全栈开源深度研究项目ODR

全栈开源生态系统：涵盖Agent框架（MiroFlow）、模型（MiroThinker）、数据（MiroVerse）和训练基础设施（MiroTrain / MiroRL）的全栈开源方案，所有组件和流程均开放共享，便于学习、复用与二次开发。

来自主题: AI资讯

6511 点击 2025-08-09 17:11

字节&MAP重塑大模型推理算法优化重点，强化学习重在高效探索助力LLM提升上限

字节&MAP重塑大模型推理算法优化重点，强化学习重在高效探索助力LLM提升上限

字节&MAP重塑大模型推理算法优化重点，强化学习重在高效探索助力LLM提升上限

强化学习（RL）范式虽然显著提升了大语言模型（LLM）在复杂任务中的表现，但其在实际应用中仍面临传统RL框架下固有的探索难题。

来自主题: AI资讯

6866 点击 2025-08-08 11:06

上一页当前第5页,共33页下一页