对抗KV Cache压缩的脆弱性:两行代码以最坏风险控制防御底层假设崩塌
对抗KV Cache压缩的脆弱性:两行代码以最坏风险控制防御底层假设崩塌随着大模型长上下文能力快速增长,海量 KV Cache 存储需求急剧增加,各类 KV Cache 压缩方法如雨后春笋般涌现。然而,这些方案在真实场景中的工程落地却常常陷入困境。
随着大模型长上下文能力快速增长,海量 KV Cache 存储需求急剧增加,各类 KV Cache 压缩方法如雨后春笋般涌现。然而,这些方案在真实场景中的工程落地却常常陷入困境。
最近AI自媒体开始踊跃讨论各种英文技术名词的中文新译法。Token的新译法纷纷涌现:灵符、模元、信符、道元、智筹、智元、智根、偷啃……
据接近腾讯混元团队的知情人士透露,原字节Seed视觉AI平台团队负责人肖学锋,Infra团队张弛于近期低调入职腾讯,负责大模型Infra相关工作,向腾讯首席AI科学家姚顺雨汇报。
Science 最新论文颠覆「技术奇点」叙事:真正的智能爆炸已在发生,但它不是孤独超级大脑的降临,而是人与 AI 深度缠绕的社会性跃迁。推理模型内部自发涌现出「思想社会」,人机混合的「半人马时代」已然开启。问题从不是奇点会不会到来,而是我们能否建起与之匹配的社会基础设施。
随着龙虾OpenClaw热潮持续,复杂的云端部署已经无法满足用户的需求,尤其是最近两周,涌现出了大量在原OpenClaw基础上定制的新产品,其中很多已经实现了应用化,用户只需要点击下载注册应用就能够体验OpenClaw的部分功能。
导读:近日,位于中关村的深度机智全球首次使用全新范式——人类学习,在多个国际 Benchmark 上取得 SOTA,史无前例地使用全新架构(仅使用人类第一视角数据、零真机数据)击败 Physical Intelligence 和英伟达等头部巨头二十多个百分点,并在两会开幕首日被央视报道。
一句话总结:社区里困扰了多年的一个 “玄学” 现象终于被拆解清楚了:在 BF16 等低精度训练里,FlashAttention 不是随机出 bug,而是会在特定条件下触发有方向的数值偏置,借助注意力中涌现的相似低秩更新方向被持续放大,最终把权重谱范数和激活推到失控,导致 loss 突然爆炸。论文还给出一个几乎不改模型、只在 safe softmax 里做的极小修改,实测能显著稳定训练。
PureblueAI清蓝也同步发布了新产品——AI 营销数字员工平台mkter.ai,以及 AI 口碑营销数字员工“Mark”。
香港科技大学 PEI-Lab 与字节跳动 Seed 团队近期提出的 WMPO(World Model-based Policy Optimization),正是这样一种让具身智能在 “想象中训练” 的新范式。该方法无需在真实机器人上进行大规模强化学习交互,却能显著提升策略性能,甚至涌现出 自我纠错(Self-correction) 行为。
《智能涌现》从阿里内部人士处获悉,阿里旗下个人AI助手“千问”将进入AI硬件领域,其在2026年规划的硬件形态包括AI眼镜、AI耳机、AI指环,将面向全球市场发售。