AI资讯新闻榜单内容搜索-Math

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: Math

首次结合RL与SFT各自优势，动态引导模型实现推理⾼效训练

首次结合RL与SFT各自优势，动态引导模型实现推理⾼效训练

首次结合RL与SFT各自优势，动态引导模型实现推理⾼效训练

新一代大型推理模型，如 OpenAI-o3、DeepSeek-R1 和 Kimi-1.5，在复杂推理方面取得了显著进展。该方向核心是一种名为 ZERO-RL 的训练方法，即采用可验证奖励强化学习（RLVR）逐步提升大模型在强推理场景 (math, coding) 的 pass@1 能力。

来自主题: AI技术研报

8134 点击 2025-07-28 10:36

面对无解问题大模型竟会崩溃？港中文&华为联合提出首个大模型推理可靠性评估基准

面对无解问题大模型竟会崩溃？港中文&华为联合提出首个大模型推理可靠性评估基准

面对无解问题大模型竟会崩溃？港中文&华为联合提出首个大模型推理可靠性评估基准

今年初以 DeepSeek-r1 为代表的大模型在推理任务上展现强大的性能，引起广泛的热度。然而在面对一些无法回答或本身无解的问题时，这些模型竟试图去虚构不存在的信息去推理解答，生成了大量的事实错误、无意义思考过程和虚构答案，也被称为模型「幻觉」问题，如下图（a）所示，造成严重资源浪费且会误导用户，严重损害了模型的可靠性（Reliability）。

来自主题: AI技术研报

9378 点击 2025-07-17 11:24

告别数据「噪音」，UCSD大模型推理新方法DreamPRM充当「信号放大器」，登顶MathVista测评榜

告别数据「噪音」，UCSD大模型推理新方法DreamPRM充当「信号放大器」，登顶MathVista测评榜

告别数据「噪音」，UCSD大模型推理新方法DreamPRM充当「信号放大器」，登顶MathVista测评榜

使用过程奖励模型（PRM）强化大语言模型的推理能力已在纯文本任务中取得显著成果，但将过程奖励模型扩展至多模态大语言模型（MLLMs）时，面临两大难题：

来自主题: AI技术研报

9176 点击 2025-07-12 11:58

推理正确率下降65.5%！斯坦福、MIT等用「不等式」拷问AI逻辑极限

推理正确率下降65.5%！斯坦福、MIT等用「不等式」拷问AI逻辑极限

推理正确率下降65.5%！斯坦福、MIT等用「不等式」拷问AI逻辑极限

大语言模型在数学证明中常出现推理漏洞，如跳步或依赖特殊值。斯坦福等高校团队提出IneqMath基准，将不等式证明拆解为可验证的子任务。结果显示，模型的推理正确率远低于答案正确率，暴露出其在数学推理上的缺陷。

来自主题: AI技术研报

10031 点击 2025-06-23 14:41

AI哪怕答案正确，逻辑链却惨不忍睹，奥数级不等式证明成功率不到50%｜斯坦福&伯克利&MIT

AI哪怕答案正确，逻辑链却惨不忍睹，奥数级不等式证明成功率不到50%｜斯坦福&伯克利&MIT

AI哪怕答案正确，逻辑链却惨不忍睹，奥数级不等式证明成功率不到50%｜斯坦福&伯克利&MIT

大语言模型解决不等式证明问题时，可以给出正确答案，但大多数时候是靠猜。推理过程经不起推敲，逻辑完全崩溃。

来自主题: AI技术研报

7869 点击 2025-06-20 09:48

大模型“拼好题”，45K数据撬动18%提升，数学问题拒绝死记硬背 | MathFusion

大模型“拼好题”，45K数据撬动18%提升，数学问题拒绝死记硬背 | MathFusion

大模型“拼好题”，45K数据撬动18%提升，数学问题拒绝死记硬背 | MathFusion

当前数学领域的数据生成方法常常局限于对单个问题进行改写或变换，好比是让学生反复做同一道题的变种，却忽略了数学题目之间内在的关联性。

来自主题: AI技术研报

9864 点击 2025-06-18 10:28

103K「硬核」题，让大模型突破数学推理瓶颈

103K「硬核」题，让大模型突破数学推理瓶颈

103K「硬核」题，让大模型突破数学推理瓶颈

本文将介绍 DeepMath-103K 数据集。该工作由腾讯 AI Lab 与上海交通大学团队共同完成。

来自主题: AI技术研报

10593 点击 2025-06-11 14:50

清华推出AI数学家！独立完成数学理论难题，自动调用基本定理、构建证明思路

清华推出AI数学家！独立完成数学理论难题，自动调用基本定理、构建证明思路

清华推出AI数学家！独立完成数学理论难题，自动调用基本定理、构建证明思路

AI数学家来了！清华团队出品—— 他们推出AI Mathematician（AIM）框架，推理模型也能求解前沿理论研究，并且证明完成度很高。

来自主题: AI技术研报

9220 点击 2025-06-05 11:32

推理大模型1年内就会撞墙，性能无法再扩展几个数量级 | FrontierMath团队最新研究

推理大模型1年内就会撞墙，性能无法再扩展几个数量级 | FrontierMath团队最新研究

推理大模型1年内就会撞墙，性能无法再扩展几个数量级 | FrontierMath团队最新研究

一年之内，大模型推理训练可能就会撞墙。

来自主题: AI资讯

10678 点击 2025-05-14 11:08

挑战AI数学推理极限！大规模形式化数学基准FormalMATH发布，最强模型成功率仅16%

挑战AI数学推理极限！大规模形式化数学基准FormalMATH发布，最强模型成功率仅16%

挑战AI数学推理极限！大规模形式化数学基准FormalMATH发布，最强模型成功率仅16%

最强AI模型面对5560道数学难题，成功率仅16.46%？背后真相大揭秘。

来自主题: AI技术研报

10432 点击 2025-05-08 10:36

上一页当前第3页,共7页下一页