无需构造偏好对:TGO用标量反馈对齐视觉生成模型|ICML'26
无需构造偏好对:TGO用标量反馈对齐视觉生成模型|ICML'26生成模型的偏好对齐,可能正在进入一个新的阶段。
搜索
生成模型的偏好对齐,可能正在进入一个新的阶段。
太有意思了,刚看到河南郑州西亚斯学院的消息。有几位 00 后创业者回母校干了件事,给学校捐了 20 亿 Token,希望带动学弟学妹做一人公司创业。郑州西亚斯学院是泡泡玛特老板王宁的母校,看来这学校真挺能出人才的。
近期,专为Diffusion模型设计的插件框架——Diffusion Templates正式开源发布。这个框架能大幅降低可控生成技术的训练和使用难度,让开发者能够通过丰富的Templates来精准控制模型的生成结果。
阿里巴巴 Z-Image 团队联合香港科技大学、加州大学圣地亚哥分校、香港中文大学等机构提出 D-OPSD(On-Policy Self-Distillation),首个针对少步扩散模型的在线策略自蒸馏框架。D-OPSD 无需奖励模型、无需成对偏好数据,
在过去很长的一段时间里,英伟达都被迫只能站在中间,一边是美国出口管制,一边是中国市场需求,老黄当然想找到一个突破口。也就是在同一天晚上,Anthropic发了一篇很不寻常的文章。文章标题叫《2028:Two scenarios for global AI leadership》,讲的是2028年全球AI领导权的两种可能。
大家等这个等太久了。 本周五,OpenAI 宣布 Codex 手机版在 ChatGPT App 中上线,安卓和 iOS 版都已开启 preview,面向包括免费版的所有用户。
刚刚,OpenAI 把 Codex 塞进了手机了,将Codex 集成进 ChatGPT 移动端 APP,目前正以 preview 形式在 iOS 和 Android 上滚动上线,并且面向所有 ChatGPT plans,包括 Free 和 Go开放。
当下的大模型后训练(Post-training)pipeline 中,On-Policy Distillation(OPD)已经成为了明星技术。从 Qwen3、MiMo 到 GLM-5,业界纷纷采用 OPD 并报告了巨大的性能提升。相比于强化学习(RL)稀疏的结果奖励,OPD 提供了密集的 Token 级别监督信号,看起来就像是一顿「免费的午餐」。
在多模态大模型(MLLM)快速发展的浪潮中,融合多模型 “集体智慧” 已成为提升模型性能的关键路径,并催生了多教师知识蒸馏这一主流范式。然而,不同来源的教师模型在架构与优化上的差异,其在相似推理过程中呈现出不稳定甚至偏移的认知轨迹,即 “概念漂移”(Concept Drift)。
在MU Shanghai组织的ClawCon活动上,OpenClaw的社区核心成员自己飞过来,在阿里中心的会议室里,面对着从全国各地赶来的开发者、创业者和用户,和他们一线交流。我们拿到了两个独家对话的机会,受访者是OpenClaw核心维护者Josh,以及OpenClaw Foundation核心成员Vincent Koc。