AI资讯新闻榜单内容搜索-蒸馏

DeepSeek上线国家超算平台！671B满血版，三大运营商接入，玄铁芯片适配

DeepSeek的含金量还在上升，一个半个周末过去发生这些大事：国家超算互联网平台上线DeepSeek-R1，最高支持671B的满血版。达摩院玄铁芯片成功适配DeepSeek-R1系列蒸馏模型，在RISC-V架构CPU和端侧平台打开新的应用空间。

来自主题: AI资讯

7094 点击 2025-02-10 17:30

被DeepSeek带火的知识蒸馏，开山之作曾被NeurIPS拒收，Hinton坐镇都没用

DeepSeek带火知识蒸馏，原作者现身爆料：原来一开始就不受待见。称得上是“蒸馏圣经”、由Hinton、Oriol Vinyals、Jeff Dean三位大佬合写的《Distilling the Knowledge in a Neural Network》，当年被NeurIPS 2014拒收。

来自主题: AI技术研报

5830 点击 2025-02-07 15:43

成本不到150元！李飞飞等26分钟训出个推理模型，媲美o1和R1，秘诀：用蒸馏

成本不到150元，训练出一个媲美DeepSeek-R1和OpenAI o1的推理模型？！这不是洋葱新闻，而是AI教母李飞飞、斯坦福大学、华盛顿大学、艾伦人工智能实验室等携手推出的最新杰作：s1。

来自主题: AI资讯

8035 点击 2025-02-07 00:26

原来，这些顶级大模型都是蒸馏的

「除了 Claude、豆包和 Gemini 之外，知名的闭源和开源 LLM 通常表现出很高的蒸馏度。」这是中国科学院深圳先进技术研究院、北大、零一万物等机构的研究者在一篇新论文中得出的结论。

来自主题: AI技术研报

7971 点击 2025-01-29 13:26

模型参数作知识通用载体，MergeNet离真正的异构知识迁移更进一步

知识蒸馏通过训练一个紧凑的学生模型来模仿教师模型的 Logits 或 Feature Map，提高学生模型的准确性。迁移学习则通常通过预训练和微调，将预训练阶段在大规模数据集上学到的知识通过骨干网络共享应用于下游任务。

来自主题: AI技术研报

3749 点击 2025-01-28 11:57

刚刚，豆包1.5模型家族硬核登场！「深度思考」秘笈曝光，多模态冲爆榜单

刚刚发布的豆包大模型1.5，不仅多模态能力全面提升，霸榜多个基准；更难得的是，它在训练过程中从未使用过任何其他模型生成的数据，坚决不走蒸馏「捷径」。

来自主题: AI资讯

8572 点击 2025-01-23 13:44

中科院北大等揭示「蒸馏真相」：除Claude豆包Gemini，其他很多模型都「蒸」过头

模型蒸馏也有「度」，过度蒸馏，只会导致模型性能下降。最近，来自中科院、北大等多家机构提出全新框架，从两个关键要素去评估和量化蒸馏模型的影响。结果发现，除了豆包、Claude、Gemini之外，大部分开/闭源LLM蒸馏程度过高。

来自主题: AI技术研报

4372 点击 2025-01-21 22:30

DeepSeek-R1 是怎么训练的｜深度拆解

昨天晚上，DeepSeek 又开源了 DeepSeek-R1 模型（后简称 R1），再次炸翻了中美互联网： R1 遵循 MIT License，允许用户通过蒸馏技术借助 R1 训练其他模型。 R1 上线 API，对用户开放思维链输出 R1 在数学、代码、自然语言推理等任务上，性能比肩 OpenAI o1 正式版，小模型则超越 OpenAI o1-mini

来自主题: AI技术研报

19176 点击 2025-01-21 13:15

GPT-5、 Opus 3.5为何迟迟不发？新猜想：已诞生，被蒸馏成小模型来卖

最近几个月，从各路媒体、AI 社区到广大网民都在关注 OpenAI 下一代大模型「GPT-5」的进展。

来自主题: AI资讯

7884 点击 2025-01-18 10:51

超越KL！大连理工发布Wasserstein距离知识蒸馏新方法｜NeurIPS 2024

大连理工大学的研究人员提出了一种基于Wasserstein距离的知识蒸馏方法，克服了传统KL散度在Logit和Feature知识迁移中的局限性，在图像分类和目标检测任务上表现更好。

来自主题: AI技术研报

5137 点击 2025-01-10 16:00