华人女学霸AI杀疯!本科最难数赛12题全对,自主证明首次公开
华人女学霸AI杀疯!本科最难数赛12题全对,自主证明首次公开在人类满分都罕见的普特南数赛上,AI直接12题全对拿满分。陶哲轩等大佬预言AI已经取得了重要里程碑,再加上GPT-5.2 Pro在数学上强到「离谱」的表现,那种「奇点将近」的直觉,真的压不住了。
在人类满分都罕见的普特南数赛上,AI直接12题全对拿满分。陶哲轩等大佬预言AI已经取得了重要里程碑,再加上GPT-5.2 Pro在数学上强到「离谱」的表现,那种「奇点将近」的直觉,真的压不住了。
最近,奥特曼的焦虑肉眼可见。去年年底,谷歌Gemini 3横空出世,一举横扫各大榜单,将ChatGPT狠狠拽下了神坛。为了抢回AI皇冠,奥特曼不得不拉响「红色警报」。
Information爆料称,DeepSeek将计划在2月中旬,也正是春节前后,正式发布下一代V4模型。据称,DeepSeek V4编程实力可以赶超Claude、GPT系列等顶尖闭源模型。
我自己做内容创作这么久,一直在观察各种 AI 产品的崛起和消亡。说实话,看到 Corsif 的成功时,我的第一反应是震惊。这个应用的核心功能简单到令人难以置信,就是用一些基础的课程教人怎么写 ChatGPT 提示词
新的一年,OpenAI 决定认真入局 AI 医疗健康领域了。就在刚刚,OpenAI 重磅推出了 ChatGPT 健康(ChatGPT Health),能够把你的医疗记录、健康 App、甚至是 Apple 健康数据连接起来,然后用 AI 帮你看懂那些复杂到头大的体检报告、准备就医问题清单、甚至规划饮食运动。
硅谷正用算法重塑上帝!AI耶稣成了手机里的「贴身伴侣」。从私信神灵的赛博亲密,到付费解锁撒旦的商品化禁忌,是技术救赎,还是披着温柔外衣的数字异端?
文本领域的大模型满分选手,换成语音就集体挂科?大模型引以为傲的多轮对话逻辑,在真实人声面前竟然如此脆弱。Scale AI正式发布首个原生音频多轮对话基准Audio MultiChallenge,直接撕开了大模型靠合成语音评测维持的优等生假象。实验显示,强如Gemini 3 Pro在真实场景下的通过率也仅过半数,而GPT-4o Audio的表现更是令人大跌眼镜。
近日,X 知名博主、Hyperbolic 联创 & CEO Yuchen Jin 发帖称,如果在他读博士的时候就有 Claude Code、Gemini 和 ChatGPT 等各类 AI 工具出现,那么也许只要一年就能毕业,而不是用了 5.5 年。
业界都在讨论的AGI之争,陶哲轩是如何看待的?就在刚刚,陶哲轩po文明确了自己的态度——还不行。他认为,目前还无法实现AGI。
又一个中国新模型被推到聚光灯下,刷屏国内外科技圈。IQuest-Coder-V1模型系列,看起来真的很牛。在最新版SWE-Bench Verified榜单中,40B参数版本的IQuest-Coder取得了81.4%的成绩,这个成绩甚至超过了Claude Opus-4.5和GPT-5.2(这俩模型没有官方资料,但外界普遍猜测参数规模在千亿-万亿级)。