AI资讯新闻榜单内容搜索-推理模型

CoT推理大溃败？哈佛华人揭秘：LLM一思考，立刻就「失智」

DeepSeek-R1火了，推理模型火了，思维链（Chain-of-Thought，CoT）火了！

来自主题: AI技术研报

9259 点击 2025-05-21 15:28

OpenAI自曝：AI推理砸钱越多，碾压人类越狠！

你以为GPT-4已经够强了？那只是AI的「预热阶段」。真正的革命，才刚刚开始——推理模型的时代，来了。这场范式革命，正深刻影响企业命运和个人前途。这不是一场模型参数的升级，而是一次认知逻辑的彻底重写。

来自主题: AI资讯

8350 点击 2025-05-18 15:17

「边思考、边搜索、边写作」WebThinker开启AI搜索&研究新纪元！

大型推理模型（如 OpenAI-o1、DeepSeek-R1）展现了强大的推理能力，但其静态知识限制了在复杂知识密集型任务及全面报告生成中的表现。为应对此挑战，深度研究智能体 WebThinker 赋予 LRM 在推理中自主搜索网络、导航网页及撰写报告的能力。

来自主题: AI技术研报

8504 点击 2025-05-16 11:04

OpenAI首席科学家Nature爆料：AI自主发现新科学！世界模型和RL是关键

近日，《自然》杂志独家专访了OpenAI首席科学家Jakub Pachocki，他揭示了推理模型、强化学习如何赋予AI自主发现科学的能力，并分享了AI如何在五年内重塑科学研究与经济格局的雄心。

来自主题: AI资讯

9230 点击 2025-05-14 11:42

强迫模型自我争论，递归思考版CoT热度飙升！网友：这不就是大多数推理模型的套路吗？

递归思考 + 自我批判，CoRT 能带来 LLM 推理力的飞跃吗？

来自主题: AI技术研报

7480 点击 2025-05-12 15:27

绝对零监督Absolute Zero：类AlphaZero自博弈赋能大模型推理，全新零数据训练范式问世

在人工智能领域，推理能力的进化已成为通向通用智能的核心挑战。近期，Reinforcement Learning with Verifiable Rewards（RLVR）范式下涌现出一批「Zero」类推理模型，摆脱了对人类显式推理示范的依赖，通过强化学习过程自我学习推理轨迹，显著减少了监督训练所需的人力成本。

来自主题: AI技术研报

9102 点击 2025-05-08 14:49

VDC+VBench双榜第一！强化学习打磨的国产视频大模型，超越Sora、Pika

随着 Deepseek 等强推理模型的成功，强化学习在大语言模型训练中越来越重要，但在视频生成领域缺少探索。复旦大学等机构将强化学习引入到视频生成领域，经过强化学习优化的视频生成模型，生成效果更加自然流畅，更加合理。并且分别在 VDC（Video Detailed Captioning）[1] 和 VBench [2] 两大国际权威榜单中斩获第一。

来自主题: AI技术研报

10647 点击 2025-05-06 15:07