AI资讯新闻榜单内容搜索-deepseek-r

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: deepseek-r
超越DeepSeek-R1关键RL算法GRPO,CMU「元强化微调」新范式登场

超越DeepSeek-R1关键RL算法GRPO,CMU「元强化微调」新范式登场

超越DeepSeek-R1关键RL算法GRPO,CMU「元强化微调」新范式登场

大语言模型(LLM)在推理领域的最新成果表明了通过扩展测试时计算来提高推理能力的潜力,比如 OpenAI 的 o1 系列。

来自主题: AI技术研报
6592 点击    2025-03-13 14:41
32B IOI奥赛击败DeepSeek-R1!Open R1开源复刻第三弹,下一步R1-Zero

32B IOI奥赛击败DeepSeek-R1!Open R1开源复刻第三弹,下一步R1-Zero

32B IOI奥赛击败DeepSeek-R1!Open R1开源复刻第三弹,下一步R1-Zero

Hugging Face的Open R1重磅升级,7B击败Claude 3.7 Sonnet等一众前沿模型。凭借CodeForces-CoTs数据集的10万高质量样本、IOI难题的严苛测试,以及模拟真实竞赛的提交策略优化,这款模型展现了惊艳的性能。

来自主题: AI资讯
7966 点击    2025-03-12 18:35
DeepSeek火了,淘金者失落,卖铲者狂欢

DeepSeek火了,淘金者失落,卖铲者狂欢

DeepSeek火了,淘金者失落,卖铲者狂欢

今天凌晨,亚马逊云科技宣布在Amazon Bedrock平台上推出全托管、无服务器的DeepSeek-R1模型,是首个提供DeepSeek-R1作为全托管、正式商用模型的海外云厂商。

来自主题: AI资讯
7754 点击    2025-03-11 23:15
「古董」GPU也能跑DeepSeek同款GRPO!显存只需1/10,上下文爆涨10倍

「古董」GPU也能跑DeepSeek同款GRPO!显存只需1/10,上下文爆涨10倍

「古董」GPU也能跑DeepSeek同款GRPO!显存只需1/10,上下文爆涨10倍

开源微调神器Unsloth带着黑科技又来了:短短两周后,再次优化DeepSeek-R1同款GRPO训练算法,上下文变长10倍,而显存只需原来的1/10!

来自主题: AI技术研报
3842 点击    2025-03-11 10:42
DeepSeek的最佳用法?西湖大学发布可以自主进化的手机智能体AppAgentX

DeepSeek的最佳用法?西湖大学发布可以自主进化的手机智能体AppAgentX

DeepSeek的最佳用法?西湖大学发布可以自主进化的手机智能体AppAgentX

近年来,大语言模型(LLM) 的快速发展正推动人工智能迈向新的高度。像 DeepSeek-R1 这样的模型因其强大的理解和生成能力,已经在 对话生成、代码编写、知识问答 等任务中展现出了卓越的表现。

来自主题: AI技术研报
7087 点击    2025-03-10 14:15
上海交大张拳石:思维链只是表象,DeepSeek凭什么更强 | 智者访谈

上海交大张拳石:思维链只是表象,DeepSeek凭什么更强 | 智者访谈

上海交大张拳石:思维链只是表象,DeepSeek凭什么更强 | 智者访谈

DeepSeek-R1 等模型通过展示思维链(CoT)让用户一窥大模型的「思考过程」,然而,模型展示的思考过程真的代表了模型的内在推理机制吗?在医疗诊断、自动驾驶、法律判决等高风险领域,我们能否真正信任 AI 的决策?

来自主题: AI资讯
9384 点击    2025-03-09 13:17
攻破OpenAI o1/o3、DeepSeek R1防线,安全推理过程反成大模型「阿喀琉斯之踵」

攻破OpenAI o1/o3、DeepSeek R1防线,安全推理过程反成大模型「阿喀琉斯之踵」

攻破OpenAI o1/o3、DeepSeek R1防线,安全推理过程反成大模型「阿喀琉斯之踵」

杜克大学计算进化智能中心的最新研究给出了警示性答案。团队提出的 H-CoT(思维链劫持)的攻击方法成功突破包括 OpenAI o1/o3、DeepSeek-R1、Gemini 2.0 Flash Thinking 在内的多款高性能大型推理模型的安全防线:在涉及极端犯罪策略的虚拟教育场景测试中,模型拒绝率从初始的 98% 暴跌至 2% 以下,部分案例中甚至出现从「谨慎劝阻」到「主动献策」的立场反转。

来自主题: AI技术研报
4919 点击    2025-03-09 10:37
32B击败DeepSeek-R1、o3-mini,成本暴降100倍!GRPO让小模型称霸推理

32B击败DeepSeek-R1、o3-mini,成本暴降100倍!GRPO让小模型称霸推理

32B击败DeepSeek-R1、o3-mini,成本暴降100倍!GRPO让小模型称霸推理

32B小模型在超硬核「时间线索」推理谜题中,一举击败了o1、o3-mini、DeepSeek-R1,核心秘密武器便是GRPO,最关键的是训练成本暴降100倍。

来自主题: AI技术研报
9172 点击    2025-03-09 10:32
7B级形式化推理与验证小模型,媲美满血版DeepSeek-R1,全面开源!

7B级形式化推理与验证小模型,媲美满血版DeepSeek-R1,全面开源!

7B级形式化推理与验证小模型,媲美满血版DeepSeek-R1,全面开源!

随着 DeepSeek-R1 的流行与 AI4Math 研究的深入,大模型在辅助形式化证明写作方面的需求日益增长。作为数学推理最直接的应用场景,形式化推理与验证(formal reasoning and verification),也获得持续关注。

来自主题: AI技术研报
4642 点击    2025-03-09 10:31