Cyber天花板被打穿!AISI实测Mythos能力正以4.5月翻倍速冲向ASI
Cyber天花板被打穿!AISI实测Mythos能力正以4.5月翻倍速冲向ASI英国AI安全研究所(AISI)昨天扔下重磅炸弹:Mythos在模拟企业内网32步渗透任务中10次过6,GPT-5.5也跟着10次过3,连此前所有模型都没破过的Cooling Tower靶场都被首次攻破!更炸的是——Cyber能力翻倍周期一路压到4.5个月,瓶颈不是智力,是Token。这场ASI决赛,人类评测已经追不上AI了。
搜索
英国AI安全研究所(AISI)昨天扔下重磅炸弹:Mythos在模拟企业内网32步渗透任务中10次过6,GPT-5.5也跟着10次过3,连此前所有模型都没破过的Cooling Tower靶场都被首次攻破!更炸的是——Cyber能力翻倍周期一路压到4.5个月,瓶颈不是智力,是Token。这场ASI决赛,人类评测已经追不上AI了。
刚刚,OpenAI 把 Codex 塞进了手机了,将Codex 集成进 ChatGPT 移动端 APP,目前正以 preview 形式在 iOS 和 Android 上滚动上线,并且面向所有 ChatGPT plans,包括 Free 和 Go开放。
1968 年的旧金山,计算机科学家道格拉斯·恩格尔巴特在一场后来被称为「演示之母(The Mother of All Demos)」的发布会上,拿出一个带着两个金属轮子的木制小盒子,向世界介绍了一个新物种:鼠标。
就在刚刚,Claude把ChatGPT拉下马,Anthropic企业市占率首次登顶!Ramp数据显示,前者的34.4%首次反超OpenAI的32.3%。但Ramp经济学家直言,A厂目前还面临着三重困境,胜负仍未定。
GPT-5.5才发三周,5.6内部测试代码就被抓包了!OpenAI即将祭出Codex 3倍速的「超极速模式」,这种疯狂的迭代速度,简直不给同行留活路。
您有没有想过:在代码Agent里,执行终端命令、跑测试、读报错、总结日志这种任务,用Claude Opus、Claude Sonnet、GPT-5.3-Codex这类昂贵Token的大模型来执行,是不是有点浪费?一定要这么做吗?
全网AI交白卷的地狱级基准,被GPT-5.5拿下一血!开局0源码盲写程序,拉满推理算力直接满血通关。传统代码测试已废,通往ASI的算力狂飙正式打响。
2021 年,陈天润还在浙江大学读本科。那一年 ChatGPT 不存在,大语言模型远没有破圈。“世界模型”这个概念刚刚冒头,但陈天润做了一个当时看起来相当激进的决定:成立一家公司,做 3D 和 AI。
何恺明,也下场做语言模型了。
以 DeepSeek-R1、OpenAI GPT Thinking 为代表的大型推理模型,通过长达数千 token 的「思维链」在各类复杂推理任务中展现出卓越的性能。然而,这些模型普遍存在一个核心问题,即过度思考(overthinking) :