AI资讯新闻榜单内容搜索-FormulaOne

GPT-5惨遭零分打脸，顶级AI全军覆没！奥特曼AI博士级能力神话破灭

顶级大模型在AAI提出的FormulaOne基准集体翻车：三层难度递进，GPT-5进阶题仅约4%正确，最深层零分；Grok 4、o3 Pro全部失手。该基准以图上MSO逻辑与动态规划生成问题，贴近路径规划等现实优化，旨在衡量超越竞赛编程的算法推理深度。

来自主题: AI技术研报

8354 点击 2025-09-17 09:30

前沿 AI 模型真的能做到博士级推理吗？前段时间，谷歌、OpenAI 的模型都在数学奥林匹克（IMO）水平测试中达到了金牌水准，这样的表现让人很容易联想到 LLM 是不是已经具备了解决博士级科研难题的推理能力？

来自主题: AI资讯

10196 点击 2025-08-15 20:41