AI资讯新闻榜单内容搜索-推理模型

刚刚，OpenAI最强推理模型o3-pro诞生！碾压Gemini 2.5 Pro击穿底价

最强推理模型一夜易主！深夜，o3-pro毫无预警上线，刷爆数学、编程、科学基准，强势碾压o1-pro和o3。更惊艳的是，o3价格直接暴降80%，叫板Gemini 2.5 Pro。

来自主题: AI技术研报

8732 点击 2025-06-11 13:20

OpenAI新模型，被曝秘密训练中！万字硬核长文直指o4核心秘密

SemiAnalysis全新硬核爆料，意外揭秘了OpenAI全新模型的秘密？据悉，新模型介于GPT-4.1和GPT-4.5之间，而下一代推理模型o4将基于GPT-4.1训练，而背后最大功臣，就是强化学习。

来自主题: AI技术研报

8773 点击 2025-06-11 12:20

o3-pro正式推出！说声“嗨”就花了80美元，思考1+1用时16分钟

OpenAI深夜放大招，正式推出“最新最强版”推理模型o3-pro！而且同一时间，o3模型降价80%不降智。官方测评结果显示，在专家评估中，所有人一致更偏爱o3-pro而非o3的回答。

来自主题: AI资讯

10966 点击 2025-06-11 10:50

60%情况下，主流大模型没理解风险只是装懂！别被模型的“安全答案”骗了

让推理模型针对风险指令生成了安全输出，表象下藏着认知危机：即使生成合规答案，超60%的案例中模型并未真正理解风险。

来自主题: AI技术研报

5952 点击 2025-06-10 11:00

苹果炮轰推理模型全是假思考！4个游戏戳破神话，o3/DeepSeek高难度全崩溃

苹果最新大模型论文，在AI圈炸开了锅。有人总结到：苹果刚刚当了一回马库斯，否定了所有大模型的推理能力。

来自主题: AI技术研报

8551 点击 2025-06-09 10:38

扩展强化学习：环境、奖励黑客、智能体、数据扩展

Test time scaling范式蓬勃发展。推理模型持续快速改进，变得更为高效且价格更为亲民。在评估现实世界软件工程任务（如 SWE-Bench）时，模型以更低的成本取得了更高的分数。以下是显示模型变得更便宜且更优秀的图表。

来自主题: AI技术研报

7614 点击 2025-06-09 10:25

苹果拆解AI大脑，推理模型全是「装」的？Bengio兄弟合著

苹果最新研究揭示大推理模型（LRM）在高复杂度任务中普遍「推理崩溃」：思考路径虽长，却常在关键时刻放弃。即便给予明确算法提示，模型亦无法稳定执行，暴露推理机制的局限性。

来自主题: AI技术研报

8671 点击 2025-06-06 16:14

清华推出AI数学家！独立完成数学理论难题，自动调用基本定理、构建证明思路

AI数学家来了！清华团队出品—— 他们推出AI Mathematician（AIM）框架，推理模型也能求解前沿理论研究，并且证明完成度很高。

来自主题: AI技术研报

9242 点击 2025-06-05 11:32

重磅开源！首个全异步强化学习训练系统来了，SOTA推理大模型RL训练提速2.77倍

想训练属于自己的高性能推理模型，却被同步强化学习（RL）框架的低效率和高门槛劝退？AReaL 全面升级，更快，更强，更好用！

来自主题: AI技术研报

8471 点击 2025-06-04 14:05

MiniMax正暗戳戳憋大招

MiniMax即将发布代号M+的文本推理模型，其表现将影响公司未来竞争力。面对DeepSeek R1的冲击，MiniMax采取国内C端不接入、海外接入的策略，并推出类Manus产品MiniMax Agent。公司通过品牌拆分（海螺AI更名）、纯API商业模式拓展市场，语音模型商业化效果显著，但未进入“基模五强”名单。新推理模型或成其保持行业地位的关键。

来自主题: AI资讯

10308 点击 2025-06-03 00:16