GPT-5被吐槽没进步?Epoch年终报告打脸:AI在飞速狂飙,ASI更近了!
GPT-5被吐槽没进步?Epoch年终报告打脸:AI在飞速狂飙,ASI更近了!Epoch AI年终大盘点来了!出乎意料的是,AI没有停滞,反而变快了。
Epoch AI年终大盘点来了!出乎意料的是,AI没有停滞,反而变快了。
OpenAI最新发布的FrontierScience基准,试图用真实的博士级难题,从物理、化学、生物三个维度上考验AI。真相是残酷的:在没有唯一标准答案的科研实战中,AI作为「顶级做题家」,距离真正的科学家,还差得远。
这是一篇报告解读,原文是《DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models》
Sasha Rush 在分享开头就提到,Cursor Composer 在他们的内部 benchmark 上的表现几乎与最好的 Frontier 模型(前沿模型)持平,并且优于去年夏天发布的所有模型。它的表现明显好于最好的开源模型,以及那些被标榜为"快速"的模型。
你见过这样的“盲眼”机器人demo吗?这些丝滑小连招来自亚马逊机器人团队FAR(Frontier AI for Robotics)发布的首个人形机器人(足式)研究成果——OmniRetarget!
9月4日,Decoding Bio发布《Projections at the Frontier: Snapshot 2025》,这份长达97页的报告,描绘了生物技术在未来五年的发展图景。
一年之内,大模型推理训练可能就会撞墙。
近日,微软发布了2025年度《工作趋势指数》报告,该研究调查了来自31个国家和地区的3.1万名受访者,并整合了LinkedIn就业市场数据,分析了AI和数字化转型对全球工作环境和组织结构的深刻影响,并预测了一个新的概念——“前沿企业”(Frontier Firms)。这些公司利用AI助手和人类智能的融合,推动了快速发展、灵活运营和价值创造。
让大模型集体吃瘪,数学题正确率通通不到2%!
Epoch AI推出数学基准FrontierMath,目前前沿模型测试成功率均低于2%!OpenAI研究科学家Noam Brown说道:「我喜欢看到新评估的前沿模型通过率如此之低。这种感觉就像一觉醒来,外面是一片崭新的雪地,完全没有人迹。」或许,FrontierMath测试成功率突破的那一天,会是AI发展过程中一个全新的里程碑。