AI资讯新闻榜单内容搜索-Deep

过程奖励模型也可以测试时扩展？清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o

随着 OpenAI o1 和 DeepSeek R1 的爆火，大语言模型（LLM）的推理能力增强和测试时扩展（TTS）受到广泛关注。然而，在复杂推理问题中，如何精准评估模型每一步回答的质量，仍然是一个亟待解决的难题。传统的过程奖励模型（PRM）虽能验证推理步骤，但受限于标量评分机制，难以捕捉深层逻辑错误，且其判别式建模方式限制了测试时的拓展能力。

来自主题: AI技术研报

9163 点击 2025-04-14 14:39

推理AI「脑补」成瘾，废话拉满！马里兰华人学霸揭开内幕

研究发现，推理模型（如DeepSeek-R1、o1）遇到「缺失前提」（MiP）的问题时，这些模型往往表现失常：回答长度激增、计算资源浪费。本文基于马里兰大学和利哈伊大学的最新研究，深入剖析推理模型在MiP问题上的「过度思考」现象，揭示其背后的行为模式，带你一窥当前AI推理能力的真实边界。

来自主题: AI技术研报

7345 点击 2025-04-14 14:05

AI奥数大奖出炉，英伟达摘桂冠！14B破解34题暴击DeepSeek R1

AIMO2最终结果出炉了！英伟达团队NemoSkills拔得头筹，凭借14B小模型破解了34道奥数题，完胜DeepSeek R1。

来自主题: AI资讯

8238 点击 2025-04-14 11:42

奥特曼：ChatGPT不是AGI！OpenAI最强开源模型直击DeepSeek

代码截图泄露，满血版o3、o4-mini锁定下周！更劲爆的是，一款据称是OpenAI的神秘模型一夜爆红，每日处理高达260亿token，是Claude用量4倍。奥特曼在TED放话：将推超强开源模型，直面DeepSeek挑战。

来自主题: AI资讯

11169 点击 2025-04-14 09:38

最强32B中文推理大模型易主：Skywork-OR1 开源免费商用，1/20 DeepSeek-R1参数量SOTA，权重代码数据集全开源

千亿参数内最强推理大模型，刚刚易主了。32B——DeepSeek-R1的1/20参数量；免费商用；且全面开源——模型权重、训练数据集和完整训练代码，都开源了。这就是刚刚亮相的Skywork-OR1 (Open Reasoner 1)系列模型——

来自主题: AI资讯

11244 点击 2025-04-13 23:34

Claude 4六个月内发布！Anthropic联创Kaplan：AGI两三年内到来

Anthropic联合创始人兼首席科学家Jared Kaplan抛出重磅预测：人类水平的AI（AGI）可能在2-3年内实现，而非此前预计的2030年。从AI能力的飞速扩展到Claude 4的即将发布，再到DeepSeek等全球竞争者的崛起，Kaplan为我们揭示了AI领域的最新突破与挑战。

来自主题: AI资讯

8560 点击 2025-04-13 10:33

杜蕾斯级别的创意海报，现在你用即梦3.0就能批量生了

如果你没有杜蕾斯背后强大的5A广告公司、鬼才般的创意团队、句句封神的的金牌文案、审美爆辣的视觉艺术家。借助即梦刚上线的3.0生图模型以及 Deepseek生创意和文案，你也可以轻松复刻一个「杜蕾斯级别」的刷屏海报。

来自主题: AI技术研报

9400 点击 2025-04-13 10:12

为什么李飞飞团队经常cue通义千问？

Qwen 3还未发布，但已发布的Qwen系列含金量还在上升。2个月前，李飞飞团队基于Qwen2.5-32B-Instruct 模型，以不到50美元的成本训练出新模型 S1-32B，取得了与 OpenAI 的 o1 和 DeepSeek 的 R1 等尖端推理模型数学及编码能力相当的效果。如今，他们的视线再次投向了这个国产模型。

来自主题: AI资讯

9268 点击 2025-04-12 12:02

SOTA自动绑骨开源框架来了！3D版DeepSeek-UniRig开源月大礼包持续开箱ing

面向3D生成，来自VAST和清华大学的自动绑骨框架开源了！3D内容创作领域正经历前所未有的爆发，无论是成熟的传统工作流，还是以VAST（Tripo）为代表的AI驱动生成工具的飞速发展，都体现了市场对高质量3D资产需求的日益激增

来自主题: AI资讯

9464 点击 2025-04-12 10:47

全球首个Linux开发本：50TOPS算力，DeepSeek都配好了，可随地大小开发

不是你以为的AI PC，全球首个算力本——AIBOOK，它来了！

来自主题: AI资讯

6923 点击 2025-04-11 16:07