一种双模态协同控制的布局可控主体一致性广告生成方法
申请号:CN202510211618
申请日期:2025-02-25
公开号:CN120219002A
公开日期:2025-06-27
类型:发明专利
摘要
本发明公开了一种双模态协同控制的布局可控主体一致性广告生成方法,针对文本‑图像扩散模型在广告制作等场景中存在的问题,定义布局到主体一致的图像生成任务。该模型采用双模态协同控制的无训练管道,包含一致性前向采样阶段与布局条件反向更新阶段。前向采样阶段利用IP‑Adapter图像一致性生成方法,处理语义空间特征,对文本特征和一致性图像特征采用解耦的交叉注意力机制,维护图像生成主体的一致性。反向更新阶段利用用户输入的边框信息引入三种布局可控损失:框内损失,边框损失,框外损失,处理隐空间特征,更新隐空间的去噪方向,实现布局可控生成。实验结果表明本发明有效解决了布局到主体一致的图像生成任务,并提升了图像生成质量。
技术关键词
广告生成方法
双模态
布局
掩码矩阵
物体
协同控制策略
交叉注意力机制
语义
文本编码器
解码器
图像编码器
超参数
更新方法
元素