邓明扬一作论文改写生成范式!何恺明也署名了
邓明扬一作论文改写生成范式!何恺明也署名了刚刚,何恺明团队提出全新生成模型范式漂移模型(Drifting Models)。
刚刚,何恺明团队提出全新生成模型范式漂移模型(Drifting Models)。
近年来,Vision-Language Models(视觉 — 语言模型)在多模态理解任务中取得了显著进展,并逐渐成为通用人工智能的重要技术路线。然而,这类模型在实际应用中往往面临推理开销大、效率受限的问题,研究者通常依赖 visual token pruning 等策略降低计算成本,其中 attention 机制被广泛视为衡量视觉信息重要性的关键依据。
扩散语言模型(Diffusion Language Models, DLLMs)因其多种潜在的特性而备受关注,如能加速的非自回归并行生成特性,能直接起草编辑的特性,能数据增强的特性。然而,其模型能力往往落后于同等规模的强力自回归(AR)模型。
开年,DeepSeek论文火遍全网,内容聚焦大模型记忆。
在大模型时代,从代码生成到数学推理,再到自主规划的 Agent 系统,强化学习几乎成了「最后一公里」的标准配置。
空气炸锅“叮”了一声。
又一位大佬准备对现有 AI 技术范式开刀了。
近日,美团推出全新多模态统一大模型方案 STAR(STacked AutoRegressive Scheme for Unified Multimodal Learning),凭借创新的 "堆叠自回归架构 + 任务递进训练" 双核心设计,实现了 "理解能力不打折、生成能力达顶尖" 的双重突破。
作为具身智能领域的代表性玩家,由上海交大系技术“双子星”——何弢博士与廖文龙博士联手掌舵的酷哇科技(Coowa),近期发布了其核心技术底座——COOWA WAM 2.0世界模型。
面壁开源了行业首个全双工全模态大模型 MiniCPM-o 4.5,相比已有多模态模型,MiniCPM-o 4.5 首次实现了「边看边听边说」以及「自主交互」的全模态能力,模型不再只是把视觉、语音作为静态输入处理,而是能够在实时、多模态信息流中持续感知环境变化,并在输出的同时保持对外界的理解。