AI资讯新闻榜单内容搜索-蒸馏

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 蒸馏
天翼云CPU实例部署DeepSeek-R1模型最佳实践

天翼云CPU实例部署DeepSeek-R1模型最佳实践

天翼云CPU实例部署DeepSeek-R1模型最佳实践

本文介绍了英特尔®至强®处理器在AI推理领域的优势,如何使用一键部署的镜像进行纯CPU环境下基于AMX加速后的DeepSeek-R1 7B蒸馏模型推理,以及纯CPU环境下部署DeepSeek-R1 671B满血版模型实践。

来自主题: AI技术研报
7099 点击    2025-03-04 10:23
蒸馏任何深度,仅用少量无标签数据就能实现单目深度估计新SOTA

蒸馏任何深度,仅用少量无标签数据就能实现单目深度估计新SOTA

蒸馏任何深度,仅用少量无标签数据就能实现单目深度估计新SOTA

单目深度估计新成果来了!西湖大学AGI实验室等提出了一种创新性的蒸馏算法,成功整合了多个开源单目深度估计模型的优势。在仅使用2万张无标签数据的情况下,该方法显著提升了估计精度,并刷新了单目深度估计的最新SOTA性能。

来自主题: AI技术研报
7994 点击    2025-02-28 15:40
1/30训练步骤复刻DeepSeek-R1-Zero,沈向洋姜大昕张祥雨等开源推理模型RL训练方法

1/30训练步骤复刻DeepSeek-R1-Zero,沈向洋姜大昕张祥雨等开源推理模型RL训练方法

1/30训练步骤复刻DeepSeek-R1-Zero,沈向洋姜大昕张祥雨等开源推理模型RL训练方法

DeepSeek啥都开源了,就是没有开源训练代码和数据。现在,开源RL训练方法只需要用1/30的训练步骤就能赶上相同尺寸的DeepSeek-R1-Zero蒸馏Qwen。

来自主题: AI技术研报
7966 点击    2025-02-22 21:30
关于DeepSeek部署的一切,都在这里

关于DeepSeek部署的一切,都在这里

关于DeepSeek部署的一切,都在这里

DeepSeek-R1及其蒸馏版本模型突破了AI Reasoning和大规模AI性能的新基准,其中DeepSeek-R1-Zero和DeepSeek-R1,已经在推理和问题求解上树立了新的标准。本次研究聚焦于如何利用已有的机器进行模型部署,使用这些先进的模型进行开发和研究。

来自主题: AI技术研报
9511 点击    2025-02-21 18:06
强化学习Scaling Law错了?无需蒸馏,数据量只要1/6,效果还更好

强化学习Scaling Law错了?无需蒸馏,数据量只要1/6,效果还更好

强化学习Scaling Law错了?无需蒸馏,数据量只要1/6,效果还更好

强化学习训练数据越多,模型推理能力就越强?新研究提出LIM方法,揭示提升推理能力的关键在于优化数据质量,而不是数据规模。该方法在小模型上优势尽显。从此,强化学习Scaling Law可能要被改写了!

来自主题: AI技术研报
5908 点击    2025-02-18 20:07
比知识蒸馏好用,田渊栋等提出连续概念混合,再度革新Transformer预训练框架

比知识蒸馏好用,田渊栋等提出连续概念混合,再度革新Transformer预训练框架

比知识蒸馏好用,田渊栋等提出连续概念混合,再度革新Transformer预训练框架

自然语言 token 代表的意思通常是表层的(例如 the 或 a 这样的功能性词汇),需要模型进行大量训练才能获得高级推理和对概念的理解能力,

来自主题: AI技术研报
4728 点击    2025-02-16 13:12
又一大厂悄悄发力!DeepSeek 满血版免费用,还能快速搭建智能体!

又一大厂悄悄发力!DeepSeek 满血版免费用,还能快速搭建智能体!

又一大厂悄悄发力!DeepSeek 满血版免费用,还能快速搭建智能体!

今天又得知咱们的老朋友,支付宝推出的智能体开发平台百宝箱,也悄悄接入了 DeepSeek!还一下子直接接入了 DeepSeek-R1 满血版、蒸馏版 32B、蒸馏版 7B、DeepSeek-V3 共四种尺寸。

来自主题: AI资讯
6165 点击    2025-02-12 10:53
Lex Fridman 五小时聊 DeepSeek:一文看懂 DeepSeek 的创新与2025 AI 趋势

Lex Fridman 五小时聊 DeepSeek:一文看懂 DeepSeek 的创新与2025 AI 趋势

Lex Fridman 五小时聊 DeepSeek:一文看懂 DeepSeek 的创新与2025 AI 趋势

DeepSeek火了之后,知名科技主播Lex Fridman,找了两位嘉宾,从 DeepSeek 及其开源模型 V3 和 R1 谈到了 AI 发展的地缘政治竞争,特别是中美在 AI 芯⽚与技术出⼝管制上的博弈。5 个小时的对谈,基于「赛博禅心」的翻译版本,我们精选出了5 万字,基本把 DeepSeek 的创新、目前 AI 的算力问题、AI 训练和蒸馏、以及产品落地等都聊透了。建议收藏后仔细阅读。

来自主题: AI资讯
8055 点击    2025-02-10 23:12
DeepSeek上线国家超算平台!671B满血版,三大运营商接入,玄铁芯片适配

DeepSeek上线国家超算平台!671B满血版,三大运营商接入,玄铁芯片适配

DeepSeek上线国家超算平台!671B满血版,三大运营商接入,玄铁芯片适配

DeepSeek的含金量还在上升,一个半个周末过去发生这些大事:国家超算互联网平台上线DeepSeek-R1,最高支持671B的满血版。达摩院玄铁芯片成功适配DeepSeek-R1系列蒸馏模型,在RISC-V架构CPU和端侧平台打开新的应用空间。

来自主题: AI资讯
7094 点击    2025-02-10 17:30