ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式
8983点击    2025-11-19 15:19

ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式


  • 论文标题:ConsistEdit: Highly Consistent and Precise Training-free Visual Editing
  • 中稿会议:ACM SIGGRAPH Asia 2025
  • 代码仓库:https://github.com/zxYin/ConsistEdit_Code
  • 论文链接:https://arxiv.org/abs/2510.17803
  • 项目主页:https://zxyin.github.io/ConsistEdit


研究背景:无训练视觉编辑的两大核心痛点


无需额外训练即可适配预训练生成模型的编辑方法,凭借灵活、高效的特性,已成为视觉生成领域的研究热点。这类方法通过操控 Attention 机制(如 Prompt-to-Prompt、MasaCtrl)实现文本引导编辑,但当前技术存在两大核心痛点,严重限制其在复杂场景的应用:


1. 编辑强度与源图一致性难以兼顾:现有方法若想保持与源图的一致性,往往需调低编辑强度,最终导致编辑目标无法实现;若提升编辑强度以完成修改,又容易破坏源图的特征结构(如改衣服颜色时丢失褶皱细节),且非编辑区域还会出现本应保持不变的意外变化。在多轮编辑或视频编辑场景中,这类问题会进一步累积放大,最终导致结果失真,无法满足实际需求。


2. 编辑强度缺乏细粒度控制能力:多数方法对编辑强度的控制局限于全局一致性(如同时约束结构与纹理),无法实现 “保结构改纹理” 或 “保纹理改结构” 的精准调节。这不仅限制了编辑的灵活性,还会导致通过调节强度生成的系列结果缺乏平滑过渡,难以满足用户对编辑精度的多样化需求。


ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式

图 1:现有编辑方法的痛点与 ConsistEdit 的优势对比


与此同时,生成模型架构正从 U-Net 向 Multi-Modal Diffusion Transformer (MM-DiT) 升级。MM-DiT 打破了 U-Net “文本 Cross-Attention + 视觉 Self-Attention” 的模态分离设计,通过统一的 Self-Attention 同时处理文本与视觉信息,为解决上述困境提供了新可能。但此前仅有 DiTCtrl 探索 MM-DiT 的 Attention 控制,且聚焦长视频生成,未针对编辑任务优化,导致无训练编辑技术未能充分挖掘 MM-DiT 的架构优势。


核心突破:针对 MM-DiT 的三个关键发现


为研究清楚 MM-DiT 架构中 Attention 计算的特点,团队通过实验分析,提炼出三个核心发现:


1. 仅编辑 “视觉 Token” 是关键:仅编辑 Attention 中的 “视觉 Token” 即可保证编辑效果稳定,若修改 “文本 Token”,会导致结果失真,如下图所示:


ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式


2. MM-DiT 所有层均含结构信息:U-Net 的结构与纹理信息主要集中在深层 Decoder 阶段,而 MM-DiT 每一层的 Q/K/V Token 都保留完整的结构与纹理信息,如下图所示。这意味着编辑可以覆盖所有 Attention 层,而非仅作用于最后几层,此前 DiTCtrl 仅改后半层的策略,会导致无法完整保持结构一致性。


ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式


3. Q/K Token 主导结构一致性:单独对 Q/K 的视觉 Token 进行控制,可精准保留源图像结构;而 V 的视觉 Token 则主要影响内容纹理。这一发现为 “结构与纹理的解耦控制” 提供了技术依据。


方法设计:ConsistEdit 的三大核心操作


基于上述洞察,团队提出 ConsistEdit—— 专为 MM-DiT 设计的无训练注意力控制方法,实现 “高精度编辑 + 强一致性保留”:


ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式


1. 视觉仅注意力控制


仅对所有 Attetion 层的视觉 Token 进行编辑,文本 Token 保持不变。这一设计可以实现强一致性的稳定生成,同时不偏离文字指令的控制。


2. 掩码引导的 Attention 融合


在 Attention 计算前,通过文字和视觉 Token 的 Attention Map 值生成编辑掩码 M,精确分离编辑区与非编辑区。


3. Q/K/V 差异化操控


根据 “结构 - 内容” 解耦特性,对 Q/K/V 采用不同操控策略:


  • 编辑区:融合源图像的 Q/K(保结构)与目标指令的 V(改内容);
  • 非编辑区:直接复用源图像的 Q/K/V(保结构和内容完整性);
  • 结构一致性需求(如改颜色、材质):固定视觉 Q/K 为源图像值,仅更新 V 为目标指令值,确保结构不偏移;


ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式


ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式


实验验证:全场景 SOTA,从图像到视频的通用编辑


Benchmark 对比结果


团队在 PIE-Bench 数据集上,从图像和视频两个维度,与 UniEdit-Flow、DiTCtrl, FireFlow 等 5 种主流方法对比,从定量、定性两方面验证 ConsistEdit 的优势。以下是一些效果展示:


ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式

图 2. 结构一致编辑任务(改材质、颜色,需要强一致性控制)


ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式

图 3. 结构不一致编辑任务(改风格、物体等,需弱一致性控制)


其他能力


真实场景以及多轮编辑


针对真实图片,结合 inversion 技术后,ConsistEdit 可保持同等编辑性能,下方为多轮编辑效果展示。


ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式


多区域编辑


得益于精确的 Attention 控制与强大的预训练模型支撑,ConsistEdit 可在单次操作中完成多区域的精准编辑。


ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式


平滑的一致性强度


下方展示了结构一致性强度的调节结果,可以一致性强度仅影响结构(如物体轮廓),不改变内容细节(如颜色、纹理),证明结构与内容的控制信号已实现有效解耦。


ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式


泛化性:适配所有 MM-DiT 变体


ConsistEdit 不仅支持 Stable Diffusion 3,还可无缝适配 FLUX.1-dev、CogVideoX-2B 等 MM-DiT 类模型:


FLUX.1-dev


ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式


CogVideoX-2B


ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式

ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式

红色汽车编辑为蓝色汽车


ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式

ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式

黑色外套编辑为蓝色外套


应用展望


ConsistEdit 的高一致性、细粒度控制特性,可广泛应用于各类视觉创作场景,既覆盖静态图片到动态视频的全场景编辑,又通过平滑的一致性调节为交互式创作提供了更多可能性。


文章来自于“机器之心”,作者 “殷子欣”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0