AI资讯新闻榜单内容搜索-Claude-3.7

陈丹琦新作：大模型强化学习的第三条路，8B小模型超越GPT-4o

结合RLHF+RLVR，8B小模型就能超越GPT-4o、媲美Claude-3.7-Sonnet。陈丹琦新作来了。他们提出了一个结合RLHF和RLVR优点的方法，RLMT（Reinforcement Learning with Model-rewarded Thinking，基于模型奖励思维的强化学习）。

来自主题: AI技术研报

10620 点击 2025-09-28 23:03

大模型全员0分！谢赛宁领衔华人团队，最新编程竞赛基准出炉，题目每日更新禁止刷题

好夸张…… 参赛大模型全军覆没，通通0分。谢赛宁等人出题，直接把o3、Gemini-2.5-pro、Claude-3.7、DeepSeek-R1一众模型全都难倒。

来自主题: AI资讯

10902 点击 2025-06-19 11:03

应激的Llama，开源的困局

在DeepSeek R1-V3、GPT-4o、Claude-3.7的强势围攻下，Meta坐不住了。曾作为开源之光的Llama在一年的竞争内连连失利，并没有研发出让公众惊艳的功能。创始人扎克伯格下达死命令，今年4月一定要更新。

来自主题: AI资讯

8748 点击 2025-04-25 08:56

全球顶尖AI来考公，不会推理全翻车！致命缺陷曝光，被倒数5%人类碾压

公考行测中的逻辑推理题，是不少考生的噩梦，这次，CMU团队就此为基础，打造了一套逻辑谜题挑战。实测后发现，o1、Gemini-2.5 Pro、Claude-3.7-Sonnet这些顶尖大模型全部惨败！最强的AI正确率也只有57.5%，而人类TOP选手却能接近满分。

来自主题: AI技术研报

9925 点击 2025-04-18 15:20

谷歌大型推理模型曝光！击败Claude-3.7-Thinking

哎！最近推特上的网友在LMSYS Arena 发现了个泄漏的大模型 Nebula，效果据说特别好，打败了o1、o3mini、Claude3.7 Thinking等等模型：网友们通过询问和分析 API，发现这似乎是谷歌正在秘密演练的新推理模型！推测可能是 Google Gemini 2.0 Pro Thinking：

来自主题: AI资讯

9372 点击 2025-03-24 14:41

Anthropic CPO 万字专访：不再只做模型！后悔没有更早做第一方产品

Anthropic 最近动作不断。

来自主题: AI资讯

7149 点击 2025-03-05 10:02