AI资讯新闻榜单内容搜索-RL

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: RL
如视发布空间大模型Argus1.0,支持全景图等多元输入,行业首创!

如视发布空间大模型Argus1.0,支持全景图等多元输入,行业首创!

如视发布空间大模型Argus1.0,支持全景图等多元输入,行业首创!

近来,世界模型(World Model)很火。多个 AI 实验室纷纷展示出令人惊艳的 Demo:仅凭一张图片甚至一段文字,就能生成一个可交互、可探索的 3D 世界。这些演示当然很是炫酷,它们展现了 AI 强大的生成能力。

来自主题: AI资讯
928 点击    2025-11-19 20:06
NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测

NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测

NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测

人类高级视觉皮层在个体间存在显著的功能差异,而构建大脑编码模型(brain encoding models)—— 即能够从视觉刺激(如图像)预测人脑神经响应的计算模型 —— 是理解人类视觉系统如何表征世界的关键。传统视觉编码模型通常需要为每个新被试采集大量数据(数千张图像对应的脑活动),成本高昂且难以推广。

来自主题: AI技术研报
10155 点击    2025-11-19 15:21
ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式

ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式

ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式

无需额外训练即可适配预训练生成模型的编辑方法,凭借灵活、高效的特性,已成为视觉生成领域的研究热点。这类方法通过操控 Attention 机制(如 Prompt-to-Prompt、MasaCtrl)实现文本引导编辑,但当前技术存在两大核心痛点,严重限制其在复杂场景的应用

来自主题: AI技术研报
9788 点击    2025-11-19 15:19
真机RL!最强VLA模型π*0.6来了,机器人在办公室开起咖啡厅

真机RL!最强VLA模型π*0.6来了,机器人在办公室开起咖啡厅

真机RL!最强VLA模型π*0.6来了,机器人在办公室开起咖啡厅

本周,美国具身智能创业公司 Physical Intelligence(简称 PI 或 π)发布了旗下的最新机器人基础模型 π*0.6。PI 是一家总部位于旧金山的机器人与 AI 创业公司,其使命是将通用人工智能从数字世界带入物理世界:他们的首个机器人通用基础模型名为 π₀,让同一套软件控制多种物理平台执行各类任务。

来自主题: AI技术研报
9158 点击    2025-11-18 16:14
今天起,李飞飞 AI「造世神器」人人可用,一句话打造 3D 世界 | 附实测体验

今天起,李飞飞 AI「造世神器」人人可用,一句话打造 3D 世界 | 附实测体验

今天起,李飞飞 AI「造世神器」人人可用,一句话打造 3D 世界 | 附实测体验

Marble,终于来了。 没错,就是两个月前在 AI 圈刷屏的那个 3D 世界生成模型。就在刚刚,李飞飞旗下的 World Labs 公司官宣向全体用户开放,还一次性放出了一大波新功能。 多模态生成:

来自主题: AI资讯
8440 点击    2025-11-13 10:37
清华团队:1.5B 模型新基线!用「最笨」的 RL 配方达到顶尖性能

清华团队:1.5B 模型新基线!用「最笨」的 RL 配方达到顶尖性能

清华团队:1.5B 模型新基线!用「最笨」的 RL 配方达到顶尖性能

如果有人告诉你:不用分阶段做强化学习、不搞课程学习、不动态调参,只用最基础的 RL 配方就能达到小模型数学推理能力 SOTA,你信吗?

来自主题: AI技术研报
6515 点击    2025-11-13 09:37
3A大作!阿里ROLL团队从基建->算法->机理,推动RL4LLM全栈协同优化

3A大作!阿里ROLL团队从基建->算法->机理,推动RL4LLM全栈协同优化

3A大作!阿里ROLL团队从基建->算法->机理,推动RL4LLM全栈协同优化

近期,阿里巴巴 ROLL 团队(淘天未来生活实验室与阿里巴巴智能引擎团队)联合上海交通大学、香港科技大学推出「3A」协同优化框架 ——Async 架构(Asynchronous Training)、Asymmetric PPO(AsyPPO)与 Attention 机制(Attention-based Reasoning Rhythm),

来自主题: AI技术研报
8694 点击    2025-11-11 10:24
SimKO:缓解RLVR训练中的概率过度集中,优化pass@K性能

SimKO:缓解RLVR训练中的概率过度集中,优化pass@K性能

SimKO:缓解RLVR训练中的概率过度集中,优化pass@K性能

研究团队提出一种简洁且高效的算法 ——SimKO (Simple Pass@K Optimization),显著优化了 pass@K(K=1 及 K>1)性能。同时,团队认为当前的用熵(Entropy)作为指标衡量多样性存在局限:熵无法具体反映概率分布的形态。如图 2(c)所示,两个具有相同熵值的分布,一个可能包含多个峰值,而另一个则可能高度集中于一个峰值。

来自主题: AI技术研报
7067 点击    2025-11-08 15:48
RLinf上新πRL:在线强化学习微调π0和π0.5

RLinf上新πRL:在线强化学习微调π0和π0.5

RLinf上新πRL:在线强化学习微调π0和π0.5

近年来,基于流匹配的 VLA 模型,特别是 Physical Intelligence 发布的 π0 和 π0.5,已经成为机器人领域备受关注的前沿技术路线。流匹配以极简方式建模多峰分布,能够生成高维且平滑的连续动作序列,在应对复杂操控任务时展现出显著优势。

来自主题: AI技术研报
10921 点击    2025-11-07 10:17