NeurIPS 2025 | DynaAct:DeepSeek R1之外,探索大模型推理的另一条道路

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
NeurIPS 2025 | DynaAct:DeepSeek R1之外,探索大模型推理的另一条道路
7561点击    2025-11-30 09:30

该工作的第一作者为香港大学计算机系博士生赵学亮。蚂蚁武威、关健为共同贡献者。


在 R1 与 O1 引领「深度推理」浪潮之后,大模型推理领域正迎来新的分叉点!


大模型推理的爆发,实际源于 scaling 范式的转变:从 train-time scaling 到 test-time scaling(TTS),即将更多的算力消耗部署在 inference 阶段。典型的实现是以 DeepSeek r1 为代表的 long CoT 方法:通过增加思维链的长度来获得答案精度的提升。那么 long CoT 是 TTS 的唯一实现吗?


针对这个问题,来自蚂蚁和香港大学自然语言组的研究团队(后简称「团队」)给出了 TTS 的另一种思路:让模型不仅「想得久」,更要「想得准」。


在这一思路下,团队提出了 DynaAct,该工作已经被 NeurIPS 2025 接收。


NeurIPS 2025 | DynaAct:DeepSeek R1之外,探索大模型推理的另一条道路


  • Title:DynaAct: Large Language Model Reasoning with Dynamic Action Spaces
  • Paper:https://arxiv.org/abs/2511.08043
  • Code:https://github.com/zhaoxlpku/DynaAct


与传统 token-by-token 式的 CoT 不同,DynaAct 提出以 Action Space Optimization 为核心的 TTS 范式:在每一步推理中动态构建可选动作集合,并通过学习算法从中选择最优动作,从而让推理路径更高效、更具结构化。


NeurIPS 2025 | DynaAct:DeepSeek R1之外,探索大模型推理的另一条道路


为什么是 Action Space 优化?


当前主流 TTS 方法通过「更长的思维链」来提升性能,但随之而来的,是搜索空间爆炸与冗余思考。团队认为,推理效率的瓶颈并不在「算得不够多」,而在「选得不够好」。


DynaAct 将推理过程类比为决策序列:每一步的关键不是「生成什么」,而是「选择什么去执行」。


因此,它聚焦于如何自动学习、动态构建每一步推理的动作空间,并提出两条核心原则:


  • 数据驱动——动作候选从真实推理数据中学习,而非人工规则生成;
  • 完备且紧凑——既覆盖潜在解,又避免冗余。


方法:


Submodular Optimization × MCTS


DynaAct 核心思想是将动作空间学习问题转化为集合选择问题,并通过子模优化(Submodular Optimization)来实现线性复杂度的算法。


子模优化的关键在于定义合适的子模函数(Submodular Function)。由于子模函数具备「集合越大,新增元素收益越小」的性质,因此可以贪心地构建一个子集,实现子集性质近似最优,同时算法复杂度维持在线性。


具体来说,DynaAct 定义的子模函数包括 utility 和 diversity 两个部分。前者度量动作空间与当前状态的相似度;而后者则刻画动作空间中动作的冗余度:


NeurIPS 2025 | DynaAct:DeepSeek R1之外,探索大模型推理的另一条道路


NeurIPS 2025 | DynaAct:DeepSeek R1之外,探索大模型推理的另一条道路


NeurIPS 2025 | DynaAct:DeepSeek R1之外,探索大模型推理的另一条道路


这样定义下的子模函数学习等价于学习动作和状态的 embedding。DynaAct 采用 Q-learning 来优化,希望利用学到的子模函数能最终选出最大化推理回报(reward)的动作空间。


NeurIPS 2025 | DynaAct:DeepSeek R1之外,探索大模型推理的另一条道路


代码亮点:


高效 MCTS 加速


在系统实现层面,团队开源了基于 vLLM 的高性能 MCTS 框架。该实现显著提升了节点扩展、Rollout 与 Reward 计算效率,为后续 TTS 研究提供了通用加速方案。


效果:


Smarter Space, Better Reasoning


在 6 项推理基准上,DynaAct 显著优于 CoT、RAP 与 rStar 等方法,验证了动态动作空间的有效性。


NeurIPS 2025 | DynaAct:DeepSeek R1之外,探索大模型推理的另一条道路


进一步分析显示,随着 MCTS Rollout 次数增加,DynaAct 呈现出稳定的 test-time scaling 趋势:


NeurIPS 2025 | DynaAct:DeepSeek R1之外,探索大模型推理的另一条道路


同时动作空间更小、延迟几乎不升:


NeurIPS 2025 | DynaAct:DeepSeek R1之外,探索大模型推理的另一条道路


展望:


从 Reasoning 走向 Smarter Search


DynaAct 证明了:TTS 的未来,不在更多计算,而在更聪明的搜索。


团队计划进一步探索:


  • 将 Dynamic Action Space 扩展到 multi-agent 规划场景;
  • 将子模优化与强化学习结合,学习端到端的自适应推理策略;
  • 推出更高效的 MCTS 工具包,服务开源社区。


文章来自于微信公众号 “机器之心”,作者 “机器之心”

关键词: 模型训练 , DynaAct , 人工智能 , AI
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales