AI资讯新闻榜单内容搜索-RL

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: RL
ICLR 2026 | 世界模型卡在多机器人协作?一个「顺序分解」思路打通

ICLR 2026 | 世界模型卡在多机器人协作?一个「顺序分解」思路打通

ICLR 2026 | 世界模型卡在多机器人协作?一个「顺序分解」思路打通

近年来,Decision-Coupled World Model 与 Model-based RL 在机器人领域取得了显著成功。通过学习环境动力学模型,智能体能够在内部模拟未来,从而进行规划与决策。但当系统从单机器人扩展到多机器人时,问题开始变得棘手。

来自主题: AI技术研报
9947 点击    2026-04-02 16:22
Nicholas Carlini:当 AI 比所有人都更擅长找漏洞,安全行业还剩几个月?

Nicholas Carlini:当 AI 比所有人都更擅长找漏洞,安全行业还剩几个月?

Nicholas Carlini:当 AI 比所有人都更擅长找漏洞,安全行业还剩几个月?

Anthropic 研究科学家 Nicholas Carlini 在 [un]prompted 2026 安全会议上用不到 25 分钟演示了一件事:语言模型现在可以自主找到并利用零日漏洞,目标包括 Linux 内核这种被人类安全专家审计了几十年的软件。

来自主题: AI技术研报
9736 点击    2026-03-31 14:06
用SFT打出RL的效果?微软联合提出高效后训练算法

用SFT打出RL的效果?微软联合提出高效后训练算法

用SFT打出RL的效果?微软联合提出高效后训练算法

在大模型后训练阶段,监督微调(SFT)和强化学习(RL)是两根不可或缺的支柱。SFT 利用高质量的离线(Off-policy)数据快速注入知识,但受限于静态数据分布,泛化能力往往容易触及天花板并带来灾难性遗忘;RL 则允许模型在探索中不断自我迭代,产生与当前策略同分布(On-policy)的数据,上限极高,但往往伴随着训练极度不稳定、计算资源消耗巨大的痛点。

来自主题: AI技术研报
5328 点击    2026-03-26 10:47
LeCun的世界模型单GPU就能跑了

LeCun的世界模型单GPU就能跑了

LeCun的世界模型单GPU就能跑了

LeCun世界模型最新进展,开源了一套极简训练方案,单GPU就能跑。

来自主题: AI技术研报
6405 点击    2026-03-24 17:25
普林斯顿开源OpenClaw-RL:使用不中断还能自进化,对话就有「反向传播信号」太猛了!

普林斯顿开源OpenClaw-RL:使用不中断还能自进化,对话就有「反向传播信号」太猛了!

普林斯顿开源OpenClaw-RL:使用不中断还能自进化,对话就有「反向传播信号」太猛了!

OpenClaw-RL的核心价值在于:它能让您的OpenClaw🦞仅仅通过与你日常对话产生的自然反馈(如你的纠正、补充说明或环境报错),就能在后台实时自动更新权重,变得越来越符合您的个性化偏好,并在实际任务中不再犯同样的错误。

来自主题: AI技术研报
7526 点击    2026-03-21 10:01
ICLR 2026 | Shop-R1: 给AI补上「内心戏」,在RL博弈中复刻人类网购脑

ICLR 2026 | Shop-R1: 给AI补上「内心戏」,在RL博弈中复刻人类网购脑

ICLR 2026 | Shop-R1: 给AI补上「内心戏」,在RL博弈中复刻人类网购脑

传统的 AI 购物助手更像是一个任务完成机器:接到指令,搜索,下单。他们或许能跑通流程,却完全无法理解用户为何在最后一刻因为一条关于 “夹耳朵” 的差评而放弃支付。简而言之,传统的电商 Agent 只是任务导向的(task-oriented),而不是模拟导向的(simulation-oriented)。为此,来自亚马逊(Amazon)的研究团队提出了名为 Shop-R1 的训练框架 。

来自主题: AI技术研报
7206 点击    2026-03-21 09:28
登顶全球权威榜单!浙大创业团队百卡打造开源实时世界模型,视频秒变可交互4D世界

登顶全球权威榜单!浙大创业团队百卡打造开源实时世界模型,视频秒变可交互4D世界

登顶全球权威榜单!浙大创业团队百卡打造开源实时世界模型,视频秒变可交互4D世界

近日,影溯正式发布并开源世界模型 InSpatio-World,综合性能优异,在李飞飞牵头的权威世界模型榜单 WorldScore-Dynamic 中,力压其他实时 / 交互级推理速度的世界模型。它彻底摒弃了烧钱低效的纯 2D 视频路径,凭借更具第一性原理的 3D 空间架构,带来了可实时交互的动态世界。

来自主题: AI资讯
7253 点击    2026-03-20 14:40
生成视频总出物理bug?用VLM迁移+token级对齐,让燃烧在正确位置发生,碰撞遵循动量守恒丨CVPR 2026近满分接收

生成视频总出物理bug?用VLM迁移+token级对齐,让燃烧在正确位置发生,碰撞遵循动量守恒丨CVPR 2026近满分接收

生成视频总出物理bug?用VLM迁移+token级对齐,让燃烧在正确位置发生,碰撞遵循动量守恒丨CVPR 2026近满分接收

当人们谈到“世界模型”(World Models)时,很多人会首先想到近年来迅速发展的生成式视频模型。

来自主题: AI技术研报
8244 点击    2026-03-20 09:39