现在的多模态生成模型已经在主流任务上表现出色,却仍在复杂指令和下游任务上表现不佳。
近期火热的Agent框架,例如OpenClaw,Claude Code,在复杂的真实任务中取得了惊人的表现。近日,上海人工智能实验室联合南京大学、香港中文大学及上海交通大学,将OpenClaw的成功应用于多模态生成领域。
他们提出GEMS(Agent-Native Multimodal Generation with Memory and Skills),激发小模型潜力,甚至让6B小模型在部分任务超越了Nano Banana 2。


受到先进的Agent系统例如OpenClaw,Claude Code的启发,研究团队将其中的成功经验运用于多模态生成领域,来解决上述问题。

GEMS包含三大特性:
Agent Loop:引入了一个结构化的多智能体协作框架,通过闭环优化,确保生成结果逐步对齐。
Agent Memory:不同于简单的历史堆叠,GEMS采用了分层压缩策略。它将历史轨迹中的事实性要素保留,而将冗长的思维链(CoT)压缩为精炼的经验,有效减少了Token开销并提升了长时迭代的指引效率。
Agent Skill:建立了一个可扩展的专家知识库,通过按需加载,在触发相关任务时加载详细指令,极大地扩展了系统的能力边界。
为了验证GEMS的优势,研究团队在五个主流任务和四个下游任务上,基于不同的生成模型进行了实验,主要结果如下:


基于Z-Image-Turbo,在主流任务平均+14.22。在下游任务上,超越最好baseline +8.92,展现了GEMS框架的有效性
研究团队进一步地分析了各个模块的有效性。

左图展示了通过逐步加入Agent Loop,Agent Memory,Agent Skill等模块,性能逐渐提升,甚至使得6B的Z-Image-Turbo在GenEval2上超越了Nano Banana 2。
右图则展示了Memory模块的具体变体,体现了将思维链压缩为经验的有效性。

团队还分析了轮次(平均生图次数)和性能的权衡,展现了GEMS框架性能和效率的双重优势。

进一步的消融揭示了Memory和Skill模块有效的提升了迭代优化过程的质量,减少了平均轮次。
GEMS 的 Agent Skills 能让模型根据任务自主触发特定技能,显著提升生成效果。

案例1:山脉日出
无技能:山脉虽真实,但光影平淡,缺乏艺术感。
有技能:触发Aesthetic Drawing,光影层次丰富,画面更有美感。
案例2:漂浮的书
无技能:书本漂浮效果简单,创意不足。
有技能:触发Creative Drawing,书页飞舞、星空点缀,整体更梦幻。
通过这两个案例,可以直观感受到 GEMS 技能模块让生成结果不仅正确,更生动、有故事感。
GEMS证明了:智能体化的管理策略可以有效弥补基础模型能力的不足。通过赋予模型“长记性”和“学技能”的能力,即使是轻量化的开源模型也能在复杂任务中展现出媲美甚至超越闭源模型的潜力。这为未来多模态生成的进一步演进提供了一个极具参考价值的范式。
论文地址:
https://arxiv.org/abs/2603.28088
项目主页:
https://gems-gen.github.io/
代码仓库:
https://github.com/lcqysl/GEMS
文章来自于微信公众号 "量子位",作者 "量子位"
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT