
推理正确率下降65.5%!斯坦福、MIT等用「不等式」拷问AI逻辑极限
推理正确率下降65.5%!斯坦福、MIT等用「不等式」拷问AI逻辑极限大语言模型在数学证明中常出现推理漏洞,如跳步或依赖特殊值。斯坦福等高校团队提出IneqMath基准,将不等式证明拆解为可验证的子任务。结果显示,模型的推理正确率远低于答案正确率,暴露出其在数学推理上的缺陷。
大语言模型在数学证明中常出现推理漏洞,如跳步或依赖特殊值。斯坦福等高校团队提出IneqMath基准,将不等式证明拆解为可验证的子任务。结果显示,模型的推理正确率远低于答案正确率,暴露出其在数学推理上的缺陷。
只训练数学,却在物理化学生物战胜o1!强化学习提升模型推理能力再添例证。
AI战火越烧越旺,苹果也坐不住了!据爆料,库克正密谋史上最大手笔收购——他盯上了估值高达140亿美元的AI搜索新星Perplexity!这场豪赌不仅会改写Siri和Safari的命运,更是苹果对抗OpenAI和谷歌的一记重拳。谁说苹果不焦虑?这次要动真格了。
今年以来具身智能赛道最大的单笔融资
成立十年,手握超40项专利和临床研究,这家数字医疗公司正以AI为矛,向多个医疗垂直领域发起总攻。
大家周末好呀!MiniMax 本周也像之前OpenAI 和 DeepSeek开启了一次为期 5 天的发布周,发布了不少干货。
让它画一张黑白手绘风格的svg图片,说明一下“自由”的本质。Prompt:“用黑白手绘风格,说明自由的本质,用svg图解。”
昨天晚上刷X时,看到两个帖子,连起来看,非常有意思。
不是更大模型,而是更强推理、更像人!AGI离落地,还有多远?OpenAI前研究主管表示,AGI所需突破已经实现!
关于大模型产生幻觉这个事,从2023年GPT火了以后,就一直是业界津津乐道的热门话题,但始终缺乏系统性的重磅研究来深入解释其根本机制。今天,伯克利的研究者们带来一个重要研究成果:让基于Transformer架构的语言模型产生幻觉的机制,恰恰也是让它们拥有超强泛化能力的关键。这就像是一枚硬币的两面,您想要哪一面,就得接受另一面的存在。