一句话生图要过时了?开源图像生成Agent进化出「工具编排」
一句话生图要过时了?开源图像生成Agent进化出「工具编排」图像生成正在从「一句话生成一张图」,走向更接近真实创作流程的开放任务。
搜索
图像生成正在从「一句话生成一张图」,走向更接近真实创作流程的开放任务。
文本生成图像的领域早已经是一片红海,看上去已经卷无可卷了。
来自西湖大学和香港中文大学(深圳)的团队沿着这一思路提出 Drifting Preference Optimization(DrPO),把漂移场用于单步文生图模型的偏好后训练。在 DrPO 中,奖励只负责对候选图像排序,不参与反向传播。具体而言,针对同一个文本提示词,当前模型生成一组候选图像。高分样本在特征空间中产生吸引,低分样本产生排斥,并结合参考模型约束给出模型的更新方向。
全员本科生! 刚刚,何恺明携本科生“军团”又放出一篇新论文。
创作能力是 YouMind 的立身之本。YouMind 的创作能力覆盖写作、生图、音视频、幻灯片、网页、学习六大方向。虽然绝大多数的通用 Agent 也具备同样的能力,但它们产出的成果通常千篇一律,相同的句式、配色、节奏……往往“一眼 AI”。
文生图的"慢思考",到底有没有用?
近年来,文生图模型的能力快速提升。从 Stable Diffusion 到 FLUX、Qwen-Image,扩散模型已经能够生成高质量图像,也能处理越来越复杂的文本提示。
2K 图像 210ms 解码,4K 细节直接生成,传统「解码 + 超分」流水线可能要被重写了。
最近,有网友发现了 ChatGPT 一个奇怪的图片 bug。给它下面的提示词:
UiT 架构探路者,底牌还没亮。