AI资讯新闻榜单内容搜索-RL

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: RL
大模型的进化方向:Words to Worlds | 对话商汤林达华

大模型的进化方向:Words to Worlds | 对话商汤林达华

大模型的进化方向:Words to Worlds | 对话商汤林达华

李飞飞团队最新的空间智能模型Cambrian-S,首次被一个国产开源AI超越了。

来自主题: AI技术研报
6133 点击    2025-12-18 09:15
全球强化学习+VLA范式,PI*0.6背后都有这家中国公司技术伏笔

全球强化学习+VLA范式,PI*0.6背后都有这家中国公司技术伏笔

全球强化学习+VLA范式,PI*0.6背后都有这家中国公司技术伏笔

在 Physical Intelligence 最新的成果 π0.6 论文里,他们介绍了 π0.6 迭代式强化学习的思路来源:

来自主题: AI技术研报
8424 点击    2025-12-15 09:58
美国视频生成老炮儿,入局世界模型

美国视频生成老炮儿,入局世界模型

美国视频生成老炮儿,入局世界模型

世界模型赛道,又有老面孔新鲜入局! 就在刚刚,Runway发布旗下首个通用世界模型GWM-1。 不止于此,还打包发布了一系列世界模型变体:模拟真实环境的GWM Worlds;

来自主题: AI资讯
7660 点击    2025-12-13 15:55
苹果光速撤回RLAX论文:用了谷歌TPU和阿里Qwen,作者中还有庞若鸣

苹果光速撤回RLAX论文:用了谷歌TPU和阿里Qwen,作者中还有庞若鸣

苹果光速撤回RLAX论文:用了谷歌TPU和阿里Qwen,作者中还有庞若鸣

昨天,苹果一篇新论文在 arXiv 上公开然后又匆匆撤稿。原因不明。论文中,苹果揭示了他们开发的一个基于 TPU 的可扩展 RL 框架 RLAX。是的,你没有看错,不是 GPU,也不是苹果自家的 M 系列芯片,而是谷歌的 TPU!还不止如此,这篇论文的研究中还用到了亚马逊的云和中国的 Qwen 模型。

来自主题: AI技术研报
7722 点击    2025-12-13 11:08
Runway深夜炸场:一口气发布5大更新,首个通用世界模型来了

Runway深夜炸场:一口气发布5大更新,首个通用世界模型来了

Runway深夜炸场:一口气发布5大更新,首个通用世界模型来了

主攻 AI 视频与多媒体生成技术的独角兽 Runway 也来了一波大的:一口气来了 5 个「激动人心的宣布」。这一波更新之猛,甚至让人觉得他们是不是把过去半年的大招一次性全放了出来。Runway 这一波发布,不仅刷新了视频生成的各项指标,更重要的是,他们正式对外展示了其在通用世界模型(General World Models/GWM)上的野心。

来自主题: AI资讯
8838 点击    2025-12-12 16:19
Z Potentials|26岁连续创业者陈锴杰:Scale Agentic RL开启模型下半场,但决胜点在于产品Taste

Z Potentials|26岁连续创业者陈锴杰:Scale Agentic RL开启模型下半场,但决胜点在于产品Taste

Z Potentials|26岁连续创业者陈锴杰:Scale Agentic RL开启模型下半场,但决胜点在于产品Taste

提起马卡龙,你会想到什么?是橱窗里的精致甜点,一种“少女心”的味觉象征?还是代表了温柔优雅的时尚配色?当一个AI产品也被命名为“马卡龙”,这份联想便悄然发生了偏移:从舌尖的甜,转向科技的未知,却又奇妙地保留了那一份色彩与气质。

来自主题: AI资讯
9329 点击    2025-12-11 15:34
只用512张H200!106B模型靠分布式RL杀出重围,全网开源

只用512张H200!106B模型靠分布式RL杀出重围,全网开源

只用512张H200!106B模型靠分布式RL杀出重围,全网开源

最近,Prime Intellect正式发布了INTELLECT-3。这是一款拥有106B参数的混合专家(Mixture-of-Experts)模型,基于Prime Intellect的强化学习(RL)技术栈训练。在数学、代码、科学与推理的各类基准测试上,它达成了同规模中最强的成绩,甚至超越了不少更大的前沿模型。

来自主题: AI资讯
8525 点击    2025-12-10 16:14