上交大等探索键值压缩的边界:MILLION开源框架定义模型量化推理新范式,入选顶会DAC 2025
上交大等探索键值压缩的边界:MILLION开源框架定义模型量化推理新范式,入选顶会DAC 2025在以 transformer 模型为基础的大模型中,键值缓存虽然用以存代算的思想显著加速了推理速度,但在长上下文场景中成为了存储瓶颈。为此,本文的研究者提出了 MILLION,一种基于乘积量化的键值缓存压缩和推理加速设计。
在以 transformer 模型为基础的大模型中,键值缓存虽然用以存代算的思想显著加速了推理速度,但在长上下文场景中成为了存储瓶颈。为此,本文的研究者提出了 MILLION,一种基于乘积量化的键值缓存压缩和推理加速设计。
花429美元购买一个AI虚拟伴侣,这个市场机会有多大?
AI 版本的「什么值得买」。
一觉醒来,全球开源的王座更替了,不是 R2。好消息是,中国用户依然是最大的受益者。
多模态大模型(MLLMs)在视觉理解与推理等领域取得了显著成就。然而,随着解码(decoding)阶段不断生成新的 token,推理过程的计算复杂度和 GPU 显存占用逐渐增加,这导致了多模态大模型推理效率的降低。
在全球 AI 人才争夺战愈演愈烈的今天,许多技术人却不得不面对一种无力的现实。最近,OpenAI 的一位核心研究员 Kai Chen,因绿卡申请被拒,不得不离开美国,这一消息在科技圈引发了广泛关注。
大模型之战烽火正酣,谷歌Gemini 2.5 Pro却强势逆袭!Gemini Flash预训练负责人亲自揭秘,深挖Gemini预训练的关键技术,看谷歌如何在模型大小、算力、数据和推理成本间找到最优解。
2024年底,「与光同尘」推出的全球首部纯AI连载动画《果果星球》于11月16日正式首发上线,故事设定在遥远的1105光年之外,一个只有水果蔬菜存在的“果果星球”上,主角是一群可爱的果蔬人类“吃土星人”,他们的冒险由此开始。
“2月16日那一周,感觉全中国的政府企业都在上Deepseek,甚至很多单位原来一张卡都没有,突然就有了DeepSeek满血版。”金山办公Office产研事业部副总经理刘丹说道,“那段时间我认识的大部分领导也都在问,‘你们到底什么时候接,怎么样的节奏’,整个行业都特别火热。”
2023 年 7 月份,我们曾经观察过妙鸭相机靠 AI 写真功能一炮而红,又快速陨落的全过程。而在产品数据下滑的同时,同年 11 月 13 日,妙鸭相机对外确认,产品负责人张月光离职。