
Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化
Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化最近,关于大模型推理的测试时间扩展(Test time scaling law )的探索不断涌现出新的范式,包括① 结构化搜索结(如 MCTS),② 过程奖励模型(Process Reward Model )+ PPO,③ 可验证奖励 (Verifiable Reward)+ GRPO(DeepSeek R1)。
来自主题: AI技术研报
6160 点击 2025-07-04 09:44