AI资讯新闻榜单内容搜索-蒸馏

1/30训练步骤复刻DeepSeek-R1-Zero，沈向洋姜大昕张祥雨等开源推理模型RL训练方法

DeepSeek啥都开源了，就是没有开源训练代码和数据。现在，开源RL训练方法只需要用1/30的训练步骤就能赶上相同尺寸的DeepSeek-R1-Zero蒸馏Qwen。

来自主题: AI技术研报

9346 点击 2025-02-22 21:30

关于DeepSeek部署的一切，都在这里

DeepSeek-R1及其蒸馏版本模型突破了AI Reasoning和大规模AI性能的新基准，其中DeepSeek-R1-Zero和DeepSeek-R1，已经在推理和问题求解上树立了新的标准。本次研究聚焦于如何利用已有的机器进行模型部署，使用这些先进的模型进行开发和研究。

来自主题: AI技术研报

11299 点击 2025-02-21 18:06

强化学习Scaling Law错了？无需蒸馏，数据量只要1/6，效果还更好

强化学习训练数据越多，模型推理能力就越强？新研究提出LIM方法，揭示提升推理能力的关键在于优化数据质量，而不是数据规模。该方法在小模型上优势尽显。从此，强化学习Scaling Law可能要被改写了！

来自主题: AI技术研报

7000 点击 2025-02-18 20:07

比知识蒸馏好用，田渊栋等提出连续概念混合，再度革新Transformer预训练框架

自然语言 token 代表的意思通常是表层的（例如 the 或 a 这样的功能性词汇），需要模型进行大量训练才能获得高级推理和对概念的理解能力，

来自主题: AI技术研报

6155 点击 2025-02-16 13:12

苹果也在蒸馏大模型，给出了蒸馏Scaling Laws

蒸馏模型的性能可以量化估算了。

来自主题: AI资讯

7526 点击 2025-02-14 15:41

又一大厂悄悄发力！DeepSeek 满血版免费用，还能快速搭建智能体！

今天又得知咱们的老朋友，支付宝推出的智能体开发平台百宝箱，也悄悄接入了 DeepSeek！还一下子直接接入了 DeepSeek-R1 满血版、蒸馏版 32B、蒸馏版 7B、DeepSeek-V3 共四种尺寸。

来自主题: AI资讯

8044 点击 2025-02-12 10:53

Lex Fridman 五小时聊 DeepSeek：一文看懂 DeepSeek 的创新与2025 AI 趋势

DeepSeek火了之后，知名科技主播Lex Fridman，找了两位嘉宾，从 DeepSeek 及其开源模型 V3 和 R1 谈到了 AI 发展的地缘政治竞争，特别是中美在 AI 芯⽚与技术出⼝管制上的博弈。5 个小时的对谈，基于「赛博禅心」的翻译版本，我们精选出了5 万字，基本把 DeepSeek 的创新、目前 AI 的算力问题、AI 训练和蒸馏、以及产品落地等都聊透了。建议收藏后仔细阅读。

来自主题: AI资讯

9825 点击 2025-02-10 23:12