AI资讯新闻榜单内容搜索-RL

李飞飞50亿美金赛道被开源！浙大教授章国锋带队创业，打造无限时长实时3D世界模型

在 50 亿美元估值神话的背后，这一空间智能的最新高地正被国内创业公司攻克并推向产业纵深。近日，影溯（InSpatio）正式发布并开源了其实时帧生成模型 InSpatio-WorldFM，一个实时交互的 3D 世界模型。这标志着中国团队在空间智能底层技术上取得了奠基性突破，而且以开放的姿态，正成为推动 AI 从虚拟屏幕走向物理现实的关键破局者。

来自主题: AI资讯

10275 点击 2026-03-06 15:40

OpenAI点赞转发的冠军项目，背后藏着一个国人3D生成团队

机器之心编辑部近日，一款名为 StoryWorld 的 iOS 产品 Demo 在海外开发者与 3D 创作者社区引发关注：用户只需用手机摄像头对准真实空间，通过语音输入描述，即可生成 3D 角色与物

来自主题: AI资讯

9721 点击 2026-03-06 11:35

又走一个！OpenAI研究VP离职，转投Anthropic做RL研究员

OpenAI的人才地震还在继续！刚刚，前研究副总裁Max Schwarzer宣布离职，这位亲手主导o1、o3和整个GPT-5系列post-training的核心人物，选择加入Anthropic，重返一线RL研究。

来自主题: AI资讯

9182 点击 2026-03-05 14:57

ICLR 2026｜在「想象」中进化的机器人：港科大×字节跳动Seed提出WMPO，在世界模型中进行VLA强化学习

香港科技大学 PEI-Lab 与字节跳动 Seed 团队近期提出的 WMPO（World Model-based Policy Optimization），正是这样一种让具身智能在 “想象中训练” 的新范式。该方法无需在真实机器人上进行大规模强化学习交互，却能显著提升策略性能，甚至涌现出自我纠错（Self-correction）行为。

来自主题: AI技术研报

8908 点击 2026-03-02 14:31

GPT之父Alec Radford新作：给大模型做「脑部手术」，危险知识重学成本暴增7000倍

近日， Anthropic 和斯坦福研究者 Neil Rathi 与这位传奇研究者联合发布了一篇新论文，并得到了一些相当惊人的新发现。在这项研究中，他们挑战了当前大模型安全领域的一个核心假设。长期以来，业界普遍认为要在模型发布后通过 RLHF 或微调来限制其危险行为。但 Neil Rathi 和 Alec Radford 提出了一种更本质的解法：

来自主题: AI技术研报

9419 点击 2026-03-02 10:12

首次证实RL能让3D模型学会推理，复杂文本描述下生成质量跃升！

当GRPO让大模型在数学、代码推理上实现质变，研究团队率先给出答案——首个将强化学习系统性引入文本到3D自回归生成的研究正式诞生，并被CVPR 2026接收。该研究不只是简单移植2D经验，而是针对3D生成的独特挑战，从奖励设计、算法选择、评测基准到训练范式，做了一套完整的系统性探索。

来自主题: AI技术研报

7849 点击 2026-02-27 10:28

清华数学系大神跳槽OpenAI！曾主导SAM与Llama开发，Sora负责人：欢迎加入

刚刚，毕业清华大学数学系，曾在Meta FAIR工作3.75年、主导过SAM与Llama多项核心工作的研究员张鹏川（Pengchuan Zhang）宣布离职。他的下一站，是来到OpenAI，投身于世界模拟与机器人学（World Simulation and Robotics）方向的研究。

来自主题: AI资讯

10387 点击 2026-02-25 14:57

ICLR 2026 | 数据缺少标注，RL还能稳定诱导模型推理吗？Co-rewarding提供自监督RL学习方案！

针对这一挑战，来自香港浸会大学和上海交通大学的可信机器学习和推理组提出了一个全新的自监督 RL 框架 ——Co-rewarding。该框架通过在数据端或模型端引入互补视角的自监督信号，稳定奖励获取，提升 RL 过程中模型奖励投机的难度，从而有效避免 RL 训练崩溃，实现稳定训练和模型推理能力的诱导。

来自主题: AI技术研报

8471 点击 2026-02-24 15:16

10亿美金！李飞飞惊爆硅谷：英伟达AMD入局，3D空间革命开战

一次拿下10亿美金，惊爆硅谷！就在刚刚，李飞飞「明星初创」World Labs官宣：成功斩获高达10亿美元的全新一轮融资。此轮融资，投资人阵容堪称豪华——

来自主题: AI资讯

10233 点击 2026-02-20 13:54

AI资讯新闻榜单内容搜索-RL

李飞飞50亿美金赛道被开源！浙大教授章国锋带队创业，打造无限时长实时3D世界模型

OpenAI点赞转发的冠军项目，背后藏着一个国人3D生成团队

又走一个！OpenAI研究VP离职，转投Anthropic做RL研究员

推荐系统进入「双动力」时代！首篇LLM-RL协同推荐综述深度解析

ICLR 2026｜在「想象」中进化的机器人：港科大×字节跳动Seed提出WMPO，在世界模型中进行VLA强化学习

GPT之父Alec Radford新作：给大模型做「脑部手术」，危险知识重学成本暴增7000倍

首次证实RL能让3D模型学会推理，复杂文本描述下生成质量跃升！

清华数学系大神跳槽OpenAI！曾主导SAM与Llama开发，Sora负责人：欢迎加入

ICLR 2026 | 数据缺少标注，RL还能稳定诱导模型推理吗？Co-rewarding提供自监督RL学习方案！

10亿美金！李飞飞惊爆硅谷：英伟达AMD入局，3D空间革命开战