
大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题
大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题一个7B奖励模型搞定全学科,大模型强化学习不止数学和代码。
一个7B奖励模型搞定全学科,大模型强化学习不止数学和代码。
「思维链劫持」(H-CoT)的攻击方法,成功攻破了包括OpenAI o1/o3、DeepSeek-R1等在内的多款大型推理模型的安全防线。研究表明,这些模型的安全审查过程透明化反而暴露了弱点,攻击者可以利用其内部推理过程绕过安全防线,使模型拒绝率从98%骤降2%。
多模态思维链(MCoT)系统综述来了!
近段时间,推理模型 DeepSeek R1 可说是 AI 领域的头号话题。用过的都知道,该模型在输出最终回答之前,会先输出一段思维链内容。这样做可以提升最终答案的准确性。
谷歌把推理大模型带入物理世界,机器人可以一边思考一边动作了!
o1/o3这样的推理模型太强大,一有机会就会利用漏洞作弊,怎么办?
推理token减少80%-90%,准确率变化不大,某些任务还能增加。
DeepSeek-R1 等模型通过展示思维链(CoT)让用户一窥大模型的「思考过程」,然而,模型展示的思考过程真的代表了模型的内在推理机制吗?在医疗诊断、自动驾驶、法律判决等高风险领域,我们能否真正信任 AI 的决策?
思维链引发的战争。
杜克大学计算进化智能中心的最新研究给出了警示性答案。团队提出的 H-CoT(思维链劫持)的攻击方法成功突破包括 OpenAI o1/o3、DeepSeek-R1、Gemini 2.0 Flash Thinking 在内的多款高性能大型推理模型的安全防线:在涉及极端犯罪策略的虚拟教育场景测试中,模型拒绝率从初始的 98% 暴跌至 2% 以下,部分案例中甚至出现从「谨慎劝阻」到「主动献策」的立场反转。