GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了 GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了 关键词: AI,模型训练,AI基准,FormulaOne 前沿 AI 模型真的能做到博士级推理吗? 前段时间,谷歌、OpenAI 的模型都在数学奥林匹克(IMO)水平测试中达到了金牌水准,这样的表现让人很容易联想到 LLM 是不是已经具备了解决博士级科研难题的推理能力? 来自主题: AI资讯 6880 点击 2025-08-15 20:41