AI资讯新闻榜单内容搜索-数学推理

7B模型数学推理击穿o1，直逼全美20%尖子生！四轮进化，微软华人新作爆火

小模型也能击败o1？微软全华人团队提出rStar-Math算法，三大革命性技术突破，不仅让SLM在数学推理能力上刷新SOTA，更是挤进了全美20%顶尖高中生榜单。

来自主题: AI技术研报

4614 点击 2025-01-10 15:51

Meta、斯坦福等：AI的下一个前沿，正是陶哲轩说的形式化数学推理

对 AI 研究者来说，数学既是一类难题，也是一个标杆，能够成为衡量 AI 技术的发展重要尺度。近段时间，随着 AI 推理能力的提升，使用 AI 来证明数学问题已经成为一个重要的研究探索方向。

来自主题: AI技术研报

7965 点击 2024-12-24 15:37

自缘身在最高层？OpenAI o1 pro竞赛级评测结果新鲜出炉

近期，OpenAI 号称最强推理模型的推出，引发了社区的热议，无论是性能还是价格，都产生了不少话题。最近，我们对 o1 新发布的 o1 满血版、o1 pro mode 模型进行了高难度数学测试，旨在深入探究其在数学推理方面的能力表现。

来自主题: AI技术研报

8500 点击 2024-12-23 09:31

OpenAI o1是真有实力！港大权威AB测试，国家队奥数题照样拿下

OpenAI o1的数学推理能力是否真的那么强？近日，来自港大的研究人员对模型进行了严格的AB测试，在非公开的国家队奥数题面前，o1证明了自己的实力。

来自主题: AI技术研报

7142 点击 2024-12-21 11:30

数字比你想得更复杂——一文带你了解大模型数字处理能力的方方面面

目前大语言模型（Large Language Models, LLMs）的推理能力备受关注。从思维链（Chain of Thought，CoT）技术提出，到以 o1 为代表的长思考模型发布，大模型正在展现出接近人类甚至领域专家的水平，其中数学推理是一个典型任务。

来自主题: AI技术研报

8745 点击 2024-12-12 10:06

NeurIPS 2024 | 数学推理场景下，首个分布外检测研究成果来了

本文将介绍数学推理场景下的首个分布外检测研究成果。

来自主题: AI技术研报

3824 点击 2024-12-02 14:14

多模态慢思考：分解原子步骤以解决复杂数学推理

AtomThink 是一个包括 CoT 注释引擎、原子步骤指令微调、政策搜索推理的全流程框架，旨在通过将 “慢思考 “能力融入多模态大语言模型来解决高阶数学推理问题。量化结果显示其在两个基准数学测试中取得了大幅的性能增长，并能够轻易迁移至不同的多模态大模型当中。

来自主题: AI技术研报

7139 点击 2024-11-30 16:45

大模型不会推理，为什么也能有思路？有人把原理搞明白了

大模型不会照搬训练数据中的数学推理，回答事实问题和推理问题的「思路」也不一样。

来自主题: AI技术研报

8329 点击 2024-11-22 16:53

上交大o1复现新突破：蒸馏超越原版，警示AI研发"捷径陷阱"

自从 OpenAI 发布展现出前所未有复杂推理能力的 o1 系列模型以来，全球掀起了一场 AI 能力 “复现” 竞赛。近日，上海交通大学 GAIR 研究团队在 o1 模型复现过程中取得新的突破，通过简单的知识蒸馏方法，团队成功使基础模型在数学推理能力上超越 o1-preview。

来自主题: AI技术研报

7192 点击 2024-11-22 16:46

AI数学神话破灭！FrontierMath让LLM集体几乎“交白卷”：正确率不超过2%

大型语言模型（LLM）最近在各种数学benchmark上疯狂刷分，动辄90%以上的正确率，搞得好像要统治数学界一样。然而，Epoch AI看不下去了，联手60多位顶尖数学家，憋了个大招——FrontierMath，一个专治LLM各种不服的全新数学推理测试！结果惨不忍睹，LLM集体“翻车”，正确率竟然不到2%！

来自主题: AI技术研报

5879 点击 2024-11-11 14:36