谷歌「AI联合数学家」来了!刷新最难数学AI基准SOTA,牛津教授用它解开群论悬案
谷歌「AI联合数学家」来了!刷新最难数学AI基准SOTA,牛津教授用它解开群论悬案群论领域几十年无解的第21.10号问题,被牛津数学家Marc Lackenby用谷歌一个新系统破解了。过程也很有意思:AI第一次给出的证明是错的,被系统里的审查Agent揪出了漏洞。
搜索
群论领域几十年无解的第21.10号问题,被牛津数学家Marc Lackenby用谷歌一个新系统破解了。过程也很有意思:AI第一次给出的证明是错的,被系统里的审查Agent揪出了漏洞。
7年的专业研究,输给了一次「vibe mathing」。一个毫无高数背景的23岁年轻人,靠一段提示词,让ChatGPT在80分钟内破解了困扰人类60年的猜想。陶哲轩承认:我们第一步就走偏了。
刚刚,图灵联合创始人刘江在海外社交媒体X上透露,DeepSeek核心研究院——郭达雅已加入字节跳动。 郭达雅2023年博士毕业后加入DeepSeek,title是AI Researcher。公开论文显示,从 DeepSeek-Coder、DeepSeek-Math、DeepSeek-Prover、DeepSeek-V3到 DeepSeek-R1,他都出现在核心作者名单中。
5天时间,AI就搞定了原本需要6个月完成的菲尔兹奖级数学成果的形式化证明。
在近日的一场播客中,曾做出 5 款产品的 AI 创业公司 Every 创始人兼 CEO Dan Shipper 采访了一位特别的年轻人 Alex Mathew。这个来自美国得克萨斯州奥斯汀 Alpha 高中的 17 岁高三学生,同时也是一名 AI 硬件创业者。
Epoch AI年终大盘点来了!出乎意料的是,AI没有停滞,反而变快了。
昨晚,数学界炸了!由HarmonicMath开发的AI数学家「亚里士多德」(Aristotle),100%独立完成了埃尔德什问题#124。它在Lean证明系统中,耗时仅6个小时,验证只需1分钟。
沉寂许久的DeepSeek又回来了!今天,DeepSeekMath-V2重磅登场,一举夺下IMO 2025金牌,实力媲美甚至超越了谷歌的IMO金牌模型,开源AI再次扳回一局。
就在刚刚,DeepSeek 又悄咪咪在 Hugging Face 上传了一个新模型:DeepSeek-Math-V2。顾名思义,这是一个数学方面的模型。它的上一个版本 ——DeepSeek-Math-7b 还是一年多以前发的。当时,这个模型只用 7B 参数量,就达到了 GPT-4 和 Gemini-Ultra 性能相当的水平。相关论文还首次引入了 GRPO,显著提升了数学推理能力。
当前的训练与评测范式存在一个根本性的局限:几乎所有主流 Benchmark(如 MATH500、AIME)都聚焦于孤立的单步问题,问题之间相互独立,模型只需「回答一个问题,然后结束」。但真实世界的推理场景往往截然不同: 为填补这一空白,复旦大学与美团 LongCat Team 联合推出 R-HORIZON—— 首个系统性评估与增强 LRMs 长链推理能力的方法与基准。