AI资讯新闻榜单内容搜索-元思维

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 元思维

Meta-Think ≠ 记套路，多智能体强化学习解锁大模型元思考泛化

最近，关于大模型推理的测试时间扩展（Test time scaling law ）的探索不断涌现出新的范式，包括① 结构化搜索结（如 MCTS），② 过程奖励模型（Process Reward Model ）+ PPO，③ 可验证奖励（Verifiable Reward）+ GRPO（DeepSeek R1）。

来自主题: AI技术研报

9486 点击 2025-07-04 09:44