AI资讯新闻榜单内容搜索-ARC-AGI

这套题，GPT-5.5、Opus 4.7加起来没考到「1分」，人类却拿了满分100？

近日，ARC Prize 官方发布了针对这两款顶级模型的详细分析报告，结果令人震惊：在面对未见过的逻辑任务时，两者的表现得分均低于 1%，GPT-5.5 得分 0.43%，Claude Opus 4.7 得分 0.18%。

来自主题: AI技术研报

9205 点击 2026-05-02 15:00

刚刚，全球最难考试惊天大反转！AI黑马 Symbolica冲破36%，顶流模型集体翻车

就在昨天，ARC-AGI-3刚把全球顶尖大模型按在地上摩擦，结果一家名不见经传的公司却给出惊天消息：他们的AI在首日就取得了36.08%的成绩！这匹黑马究竟靠什么撕开全球最难AI考试的铁幕？是真突破，还是另有玄机？

来自主题: AI资讯

9343 点击 2026-03-27 15:24

全球顶尖大模型一夜惨遭血洗！最难AI测试人类拿满分，AI第一名得0.2%分

今夜，整个AI圈震动了。全球最难AGI测试ARC-AGI-3一上线，就把全球顶尖AI打到集体失声，人类满分通关，最强模型Opus 4.6得分仅0.2%，还不到1%。AI这是一夜被打回「原始人」了。

来自主题: AI资讯

8319 点击 2026-03-27 00:39

Gemini 3.1 Pro 曝光，能力翻倍价格不变，谷歌想重新定义 AI 竞争规则

当地时间 2 月 19 日，Google 曝光 Gemini 3.1 Pro 最新模型。在 ARC-AGI-2 这个公认的推理基准测试中，Gemini 3.1 Pro 拿到了 77.1% 的分数。什么概念？它的前辈 Gemini 3 Pro 只有 31.1%，就连专门用来「深度思考」的 Gemini 3 Deep Think 也只有 45.1%。

来自主题: AI资讯

9255 点击 2026-02-20 13:53