刚刚,全球最难考试惊天大反转!AI黑马 Symbolica冲破36%,顶流模型集体翻车
刚刚,全球最难考试惊天大反转!AI黑马 Symbolica冲破36%,顶流模型集体翻车就在昨天,ARC-AGI-3刚把全球顶尖大模型按在地上摩擦,结果一家名不见经传的公司却给出惊天消息:他们的AI在首日就取得了36.08%的成绩!这匹黑马究竟靠什么撕开全球最难AI考试的铁幕?是真突破,还是另有玄机?
就在昨天,ARC-AGI-3刚把全球顶尖大模型按在地上摩擦,结果一家名不见经传的公司却给出惊天消息:他们的AI在首日就取得了36.08%的成绩!这匹黑马究竟靠什么撕开全球最难AI考试的铁幕?是真突破,还是另有玄机?
AGI,究竟如何评判?刚刚,谷歌DeepMind发出重磅论文,直接从认知科学「借」了一套度量衡——把通用智能拆成10大认知能力,配一套三阶段评估协议,还联合Kaggle砸了20万美金,向全球研究者悬赏:谁能测出真正的AGI?
AI一分钟,人类十年功! 一觉醒来,AI推理模型已横扫特许金融分析师CFA考试。在一级考试中,Gemini 3.0 Pro创下97.6%的历史最高纪录。二级考试中,GPT-5以94.3%的成绩领先。
近日,新西兰林肯大学(Lincoln University)的一门课程引发争议:因怀疑部分学生在作业中使用了生成式 AI 工具,任课教师决定让全班 100 多名学生重新接受线下考核。
2025 年,大模型又一次刷新了人类的认知边界,AI 模拟高考成绩大幅跃升,已达到清华、北大的录取线。但另一方面,这也让人感到些许焦虑。
“人类最后的考试”首次突破30分,还是咱国内团队干的! 该测试集是出了名的超难,刚推出时无模型得分能超过10分。
公考机构得跟AI抢生源了
真实的大学考试,已经被AI渗透了!英国雷丁大学的一项研究发现,在大学考试中,有94%的AI生成内容完全没有被老师发现。也就是说,如果学生真的有心用GPT-4作弊,大概率会获得好成绩,而且很难被发现。