AI资讯新闻榜单内容搜索-RL

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: RL
大模型「有心了」:首个情感大模型Echo-N1,32B胜过200B

大模型「有心了」:首个情感大模型Echo-N1,32B胜过200B

大模型「有心了」:首个情感大模型Echo-N1,32B胜过200B

近日,来自 NatureSelect(自然选择)的研究团队 Team Echo 发布了首个情感大模型 Echo-N1,提出了一套全新的「情感模型训练方法」,成功将 RL 用在了不可验证的主观情感领域。仅 32B 参数的 Echo-N1,在多轮情感陪伴任务中胜率(Success Rate)达到 46.7%。作为对比,

来自主题: AI资讯
7814 点击    2025-12-10 14:38
Percept-WAM:真正「看懂世界」的自动驾驶大脑,感知到行动的一体化模型

Percept-WAM:真正「看懂世界」的自动驾驶大脑,感知到行动的一体化模型

Percept-WAM:真正「看懂世界」的自动驾驶大脑,感知到行动的一体化模型

近日,来自引望智能与复旦大学的研究团队联合提出了一个面向自动驾驶的新一代大模型 ——Percept-WAM(Perception-Enhanced World–Awareness–Action Model)。该模型旨在在一个统一的大模型中,将「看见世界(Perception)」「理解世界(World–Awareness)」和「驱动车辆行动(Action)」真正打通,形成一条从感知到决策的完整链路。

来自主题: AI技术研报
6190 点击    2025-12-10 14:33
速递|德国AI客服独角兽Parloa估值半年翻倍,冲刺20-30亿美元,拟融资2亿美元

速递|德国AI客服独角兽Parloa估值半年翻倍,冲刺20-30亿美元,拟融资2亿美元

速递|德国AI客服独角兽Parloa估值半年翻倍,冲刺20-30亿美元,拟融资2亿美元

据知情人士透露,开发客户服务人工智能的德国初创公司Parloa正在寻求新一轮融资,估值将较今年5月大幅提升。这家在德国和纽约设有办公室的公司,已与包括General Catalyst在内的投资者进行了洽谈,寻求筹集约2亿美元的新资金。知情人士称,Parloa正在讨论的潜在估值区间约为20亿至30亿美元。

来自主题: AI资讯
7736 点击    2025-12-08 11:52
LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开

LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开

LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开

如今,强化学习(RL)已成为提升大语言模型(LLM)复杂推理与解题能力的关键技术范式,而稳定的训练过程对于成功扩展 RL 至关重要。由于语言具有强烈的上下文属性,LLM 的 RL 通常依赖序列级奖励 —— 即根据完整生成序列给一个标量分数。

来自主题: AI技术研报
5415 点击    2025-12-08 10:27
告别「2D错觉」,SpatialActor通过解耦语义与几何,为具身智能注入强鲁棒空间基因

告别「2D错觉」,SpatialActor通过解耦语义与几何,为具身智能注入强鲁棒空间基因

告别「2D错觉」,SpatialActor通过解耦语义与几何,为具身智能注入强鲁棒空间基因

作者在包含 50 多个任务的多个仿真和真实世界场景中评估了 SpatialActor。它在 RLBench 上取得了 87.4% 的成绩,达到 SOTA 水平;在不同噪声条件下,性能提升了 13.9% 至 19.4%,展现出强大的鲁棒性。目前该论文已被收录为 AAAI 2026 Oral,并将于近期开源。

来自主题: AI技术研报
7380 点击    2025-12-06 10:59
超越π0.5,复旦团队首创「世界模型+具身训练+强化学习」闭环框架

超越π0.5,复旦团队首创「世界模型+具身训练+强化学习」闭环框架

超越π0.5,复旦团队首创「世界模型+具身训练+强化学习」闭环框架

Vision–Language–Action(VLA)策略正逐渐成为机器人迈向通用操作智能的重要技术路径:这类策略能够在统一模型内同时处理视觉感知、语言指令并生成连续控制信号。

来自主题: AI技术研报
8496 点击    2025-12-05 09:27
从MiniMax到DeepSeek:为何头部大模型都在押注「交错思维」?

从MiniMax到DeepSeek:为何头部大模型都在押注「交错思维」?

从MiniMax到DeepSeek:为何头部大模型都在押注「交错思维」?

昨日,有位推特博主晒出了国内几大开源模型在轻量级软件工程 Agent 基准测试 mini-SWE-agent 上的成绩。该基准主要测试大模型在真实软件开发任务中的多步推理、环境交互和工程化能力。

来自主题: AI技术研报
8911 点击    2025-12-04 16:25
DeepSeek V3.2爆火,Agentic性能暴涨40%解密

DeepSeek V3.2爆火,Agentic性能暴涨40%解密

DeepSeek V3.2爆火,Agentic性能暴涨40%解密

DeepSeek V3.2的Agentic能力大增,离不开这项关键机制:Interleaved Thinking(交错思维链)。Interleaved Thinking风靡开源社区背后,离不开另一家中国公司的推动。

来自主题: AI技术研报
7880 点击    2025-12-04 14:58