
GPT-5惨遭零分打脸,顶级AI全军覆没!奥特曼AI博士级能力神话破灭
GPT-5惨遭零分打脸,顶级AI全军覆没!奥特曼AI博士级能力神话破灭顶级大模型在AAI提出的FormulaOne基准集体翻车:三层难度递进,GPT-5进阶题仅约4%正确,最深层零分;Grok 4、o3 Pro全部失手。该基准以图上MSO逻辑与动态规划生成问题,贴近路径规划等现实优化,旨在衡量超越竞赛编程的算法推理深度。
顶级大模型在AAI提出的FormulaOne基准集体翻车:三层难度递进,GPT-5进阶题仅约4%正确,最深层零分;Grok 4、o3 Pro全部失手。该基准以图上MSO逻辑与动态规划生成问题,贴近路径规划等现实优化,旨在衡量超越竞赛编程的算法推理深度。
本周,我们关注 Agent 与工业结合正在发生的变化,我们邀请研发时序大模型 Geegobyte-g1 以及工业智能体平台「河谷」的初创企业极峰科技的创始人王筱圃,和我们聊一聊什么是时序大模型,和大语言模型的区别和具体的案例,他们如何训练一个 Agent 并把它卖给企业投入到生产流程中。希望能对大家了解 AI Agent 如何应用于工业生产有所帮助。
昨晚,“阿里版Cursor”AI编程平台Qoder面向全球用户正式推出付费订阅,Pro用户订阅费用为每月20美金(约合人民币142.4元),Pro+用户订阅费用为每月60美金(约合人民币427.1元)。
AI for Science的浪潮下,彻底激发了投资人的热情。 据彭博社报道,AI公司Lila Sciences已经完成2.35亿美元的A轮融资,公司估值约为12亿美元。
上周,福布斯、Wired等争相报道「全球最快开源推理模型」K2-Think,,甚至图灵奖得主Yann LeCun转发推文。但仅三天后,ETH五位研究员的博客如晴天霹雳:87数学评估题竟藏在训练集中!这不仅仅是技术突破,更是行业诚信的警钟。
当Mark Lee 还在哈佛法学院就读时,一门商标法课程让他见识到仿冒产业的惊人规模——这个非法产业年产值超过 3 万亿美元。Sequoia Capital(红杉资本)前亚洲分支机构正在投资一家鲜为人知的初创公司——Marq Vision ,该公司致力于追踪并帮助下架未经授权的 AI 芯片、药品、游戏和奢侈品销售列表。
一觉醒来,宇树带着最新开源模型来了!这次开源的是一个世界模型-动作架构,名叫UnifoLM-WMA-0。它的核心之处在于拥有一个世界模型能够理解机器人和环境相互作用时的物理规律。
什么情况,帮马斯克训练大模型的人说失业就失业了?上周四晚,xAI内部上演了一场突袭测试,还要求员工必须在第二天早上之前完成并提交。这可不是一次简单的随堂测试——截至目前,本次xAI内部测试的淘汰率高达33%,已有超过500名员工被通知卷铺盖走人。
总部位于首尔的芯片初创公司FuriosaAI 正筹备进行一轮可能超过 3 亿美元的 IPO 前融资,该公司致力于挑战英伟达的市场地位。
在大厂内部“从0到1”推动并构建数据基础设施十余年之后,离哲选择走向台前,开启一场真正意义上的“从技术到产品、从产品到服务闭环”的创业实验。