a16z对话Nano Banana团队:2亿次编辑背后的"工作流革命"

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
a16z对话Nano Banana团队:2亿次编辑背后的"工作流革命"
6140点击    2025-11-12 15:15

创意工作流的“奇点”已经到来。曾经耗费团队数周的角色设计、风格探索和分镜绘制,如今在Nano Banana中被压缩到几分钟。高度一致的角色、一键迁移的风格、拖拽完成的复杂编辑。创作者正从繁琐的“脏活累活”中被解放,回归到他们真正的使命,打磨故事与情感。这并非魔术,而是多模态生成式AI在视觉领域掀起的第一次真正意义上的“工作流革命”。


本文基于a16z对Google DeepMind Nano Banana团队的深度专访,试图勾勒这场变革的全貌。Nano Banana的成长轨迹预示着,当分钟级高质量出图成为标配,真正的机会在于重构创作的全过程。一个整合了对话式编辑、角色一致性与多图叙事的通用创作平台,正在重新定义创作者的角色,从“执行者”转变为与AI长期“对话”的“创意导演”


 Speaker 个人介绍


【Nano Banana 团队】


1.Oliver Wang | Principal Scientist:Google DeepMind首席科学家,Gemini 2.5 Flash Image与Nano Banana的技术负责人。长期专注于图像、视频与计算摄影研究,致力于将前沿视觉模型转化为创作者可用的产品。

2.Nicole Brichtova | Group Product Manager:Google DeepMind集团产品经理,负责Gemini图像、Nano Banana等多模态能力的产品战略。既深耕专业创作者工作流,也探索教育、品牌等场景的AI应用落地。


【对话嘉宾】


3.Justin Moore | 科技从业者:长期关注创作者生态与产品体验的科技从业者。聚焦AI模型评估、创作控制感,以及Nano Banana在日本等地激发的创作者社区现象。


Nano Banana 的诞生:从多团队合流到“起飞”


a16z:能否先跟我们讲讲模型背后的故事,最初是如何开始做这个产品的?


Oliver Wang:我们团队已经在图像模型上做了很长一段时间,开发了一系列模型。这要追溯到几年前,我们已经有了一个图像生成模型,各个团队开始越来越聚焦在使用场景上。比如交互式、对话式、编辑相关的用法等。我们把团队合在一起,构建了这个模型,后来被叫作Nano Banana。


Nicole Brichtova:我们的模型在视觉质量上一直名列前茅,也十分聚焦在比较专业的生成和编辑场景上。当 Gemini 2.0 Flash 出来时,我们都感到非常惊讶。比如既能生成图像,又能同时生成文本,还可以“跟图像对话”,并用对话的方式进行编辑。当时的视觉质量虽未达到理想水平,但它成功地将多模态对话能力与高质量视觉效果的优势结合在一起。一方面是和多模态对话的能力另一方面是在视觉质量上的优势,这也是让大家觉得有区别的主要原因之一。


a16z:想问在开发、测试模型的过程中,有哪些瞬间,会让你觉得这个一定会火?


Oliver Wang:说实话,一开始我并没有“这个会大爆”的感觉,直到我们把它发布到平台上。一开始我们给它预留的每秒请求数,和以前模型差不多的量级,结果我们不得不一再上调,用这个模型的人实在太多了。我觉得那是我第一次真切地觉得:“这东西对很多人来说是真的有价值。” 当时我们的目标只是把模型做成最佳的对话式编辑模型。大家会不惜多绕几步,跑到网站上使用,网站只会在部分时间里把这个模型分配给你。即便如此,大家还会专门去网站只为用它。对我而言,这真的是一个关键时刻。让我意识到:“这东西会比我们想象的更火。”


当主角变成“我和家人”


Nicole Brichtova:我在不同的模型上反复测试类似场景,很多场景和我小时候想成为的样子相关。在模型发布前,我用内部模型测试了下,那也是我第一次看到生成的图片是真的像我。


你们也经常玩这些模型,应该知道之前只有在你用Laura或其他方法对模型做微调的话,才有可能做到这一点。但通常需要好多照片、很长的微调时间,还需要把模型部署到某个地方才可以。所以这也是第一次在“0样本”的情况下做到这件事。后来做演示文档时,整个文档上几乎全是我的脸,我要说服别人这有多酷。


更多人意识到这是一个“超有趣的功能”的时刻,是当他们开始拿自己照片来试。当你看到别人被生成成各种样子时,当然也挺好玩。 但情绪上的共鸣有限。一旦变成你自己、孩子、伴侣、狗,会变得非常私人且有情感了。这种个人化体验开始在公司内部有感染力,大家开始给自己做很多“年代复古造型”的版本,把自己全部改造一遍。内部使用活跃度突然爆了,我们意识到真的抓到一个有意思的方向了。”


Oliver Wang:在我们做这些模型的时候,测试本身就非常好玩,因为你会看到各种各样、特别有创意的东西从中出现。


未来创作光谱:从专业工作流到日常创意


a16z:往长远一点看,你觉得这个方向最终会走向哪里?这些东西会把我们带向什么样的未来?我们现在造出来的是会从根本上改变视觉艺术的工具,比如我们可以做风格迁移,可以对同一个主体生成一系列风格一致的图像。过去可能要做一大堆复杂的操作,现在我只要打一行指令,就自动完成。


但这种技术的“最终状态”是什么呢? 我们现在有概念么? 比如再过五年,大学里的“创意艺术”课会怎么教?


Nicole Brichtova:我觉得未来会是一个“光谱”,在专业创作者这一侧,我们听到最多的反馈是,这些模型让创作者把更少的时间花在枯燥的工作上, 他们可以更专注在创意工作本身,而不是把 90% 的时间消耗在剪辑、修图。我觉得在专业端会看到一波创意的爆发。


在面向普通消费者这侧,可能会出现一个两端的光谱。其中一端,可能只是做一些很好玩的东西,比如帮我的孩子设计万圣节服装之类。这种场景目的是把它分享给家人或者朋友等。另一端,可能会有一些任务,比如做一份幻灯片。我一开始是做咨询顾问的,在那份工作里,会花大量时间在一些特别枯燥的事情上。比如把排版弄好看、试图让故事讲得合情合理。对于这种类型的任务,可能只需要一个智能代理,你把你想做的事情规格讲清楚。它就会自己去帮你排版、整理,帮你生成适合传递信息的视觉内容。


所以这最终会是一个取决于你想做什么事的“连续光谱”。你是想深度参与创作过程,去调整、去玩,和模型一起协作。还是你只是想把任务交给模型,让自己尽可能节省时间。


什么是艺术:分布、意图与创作者


a16z:在这个新世界里,“艺术”到底是什么? 比如说,最近有人提出艺术是,能创作一个“超出分布”的样本。 你觉得这是一个好的定义吗?还是说这个标准定得太高了?


a16z:你觉得艺术对于模型来说,是“在分布内”还是“在分布外”?我觉得用“超出分布的样本”来定义艺术,可能有点太严格了。很多伟大的艺术作品,其实在它之前的艺术史脉络里,是“在分布内”的。 所以,“什么是艺术”这是一个非常哲学的问题,有无数人对此争论。


对我来说,艺术最重要的东西是“意图”。 所以,这些模型生成的东西,本质上是一个“工具”,让人们去创作艺术。 我其实一点也不担心“高端创作者”、专业艺术家这些人。 因为如果你把我放到这些模型前面,我根本做不出什么“别人想看的东西”,但是那些真正富有创意、有明确意图、有想法的人,用这些工具能做出的东西,我是见过的,那才是最让我着迷的地方。他们创作出来的东西真的很惊人,也很鼓舞人。 所以我觉得那些高端用户、专业创作者,永远都会去使用最前沿的工具,而这只不过是他们工具箱里的又一种工具,用来做更酷的作品。 


Justin Moore:我在和创作者、艺术家聊这个模型的时候,一直听到一个反馈,很多人觉得此前没办法真正用好工具,因为那些工具给不了他们足够的“控制感”。 一方面是角色、物体的一致性。他们需要一致性来维持一个有说服力的叙事。在过去,如果你没法在多张图里保持同一个角色的一致性,那就很难讲好故事。另一方面,我经常从艺术家那里听到,他们很喜欢能够上传多张图片,说:“把这张图的风格用到这个角色身上”,或者“把这个元素加到那张图里”。而这些,在以前的图像编辑模型里非常难做到。


a16z:所以我很好奇在训练模型的时候,是不是刻意针对这些需求做了很多优化?


Oliver Wang:当然。定制化能力和角色一致性是我们在开发过程中重点监测的指标之一,我们在这两点上尽可能做到最好。我觉得还有一件事也很重要,是“交互式对话”的迭代特性。艺术创作本身就需要迭代,不断修改。我觉得这是让模型变得更有用的另一个关键点,还有非常大的提升空间。比如当对话变得很长的时候,模型在遵循指令方面会开始打折扣。这是我们明确计划要改进的地方,目标是让模型在长对话里也能更自然地像一个“创意搭档”一样陪你做东西。


a16z:有一个很有意思的现象,在你们上线Nano Banana后,好像突然到处都听到“编辑模型”的说法。你们发布之后,全世界好像一下子意识到“编辑模型太棒了,我也想要一个”。 话题也很自然地延伸到定制化、个性化这些需求上。我知道你以前在Adobe工作也有那种完全靠手工编辑的专业软件。那你怎么看在模型层面可以调的“旋钮”,和以前我们在软件里的那些“旋钮”,未来会怎么演化?模型这一层和传统工具相比会怎么变化?


Oliver Wang:我觉得所有专业工具的特点,就是提供大量的控制项,大量的“旋钮”、细节调节。 所以这里一直存在一个平衡,一方面我们希望有人能在手机上使用它,也许只需要一个语音界面就能搞定。另一方面,我们又希望真正专业的艺术创作者可以做非常细腻的调整。目前我们还没有完全想清楚怎么同时满足这两端的需求。 但现在已经有很多人在尝试构建比如控制、定制化与角色一致性等这些界面。


Nicole Brichtova:我自己也希望,有一天我们能做到,用户不需要再去学习每一个控制项到底是什么意思,而是模型可以根据你当前的上下文,智能地给出“下一步可以做什么”的建议。 我觉得这非常适合有人去专门攻克。 比如未来的用户界面会变成你可能不需要像以前那样去学习一百种工具、而是工具应该足够聪明,根据你已经做的事情来“提示它还能为你做什么”。


a16z:这个观点真的非常有洞察力。我自己在用Nano Banana的时候会想,“我之前根本不知道自己想要这个效果,但现在看到这个风格,我甚至说不出这风格叫什么名字,可是我就是觉得好看、有感觉。” 这其实也说明了一点,图像嵌入和语言嵌入之间并不是一一对应的我们没办法只通过语言就精确地描述所有可能的编辑操作。


a16z:另一个问题是界面到底可以有多复杂,其实部分取决于我们在软件里能表达什么、能把东西做得多顺手。而这又在某种程度上被限制在用户能容忍多大的复杂度。如果你的用户是专业人士,他们只在乎结果,他们愿意接受非常高的复杂度,因为他们受过训练、有教育背景、有经验能驾驭这些工具。那这样的话,我们可能会最后仍然有很多“旋钮”,只是形式变了。 比如你现在用 Cursor 之类的工具来写代码,它并不是只有一个“超级简化”的单一文本框界面。 它会有很多设置,比如在这里加上下文,这里切换不同模式等。所以未来我们会不会也在图像这边有一个面向高级用户的“超复杂界面”? 如果会,那它会长什么样?


Oliver Wang:我个人是 Comfy UI 和各种“节点式界面”的超级粉丝。它确实很复杂,但同时也很强大,能在里面做很多事情。所以在我们发布 Nano Banana 之后,我们看到很多人开始在 Comfy UI 里搭非常复杂的工作流,把不同的模型、不同的工具组合在一起。 举个例子,有人会用 Nano Banana 来生成分镜头、关键帧,然后再把这些东西接到视频模型上,你就能得到非常惊艳的输出。 所以我认为在专业用户或者开发者这层,这类复杂界面其实非常棒。 但如果说到“介于专业与普通之间”的人群,两三年后那类用户的界面会长什么样,现在还很难说。


Nicole Brichtova:是的,我觉得这很大程度上取决于你的目标用户是谁。对于普通用户来说,我常拿我父母举例,聊天机器人这样的界面其实已经很好了,因为你不需要学习一个全新的界面。你只要把图片上传,然后跟它说话就行了。但对专业用户来说,我同意他们需要的控制远比这多得多。但中间还会有一群人,他们其实很想做这种创作,但一直被传统专业工具吓退了。对他们来说,我觉得这里还有一块空间。他们需要比纯聊天更多的控制,但又不需要像专业工具那样复杂。那个“中间态”的界面到底该长什么样?


多模型共存:一个模型统治不了世界


a16z:你提到 Comfy UI 很有意思,因为它刚好是在光谱的另一端。一个工作流可以有上百个步骤和节点,而且你要确保每一步都运转正常。而在光谱的另一端,你只需要用语言描述一下,就能直接得到结果。我不知道底层模型结构是怎样,也不太清楚架构等细节。但我想问的是你觉得未来的世界会更像哪一边?是往“一个提供商托管一个大模型,什么都由它来做”的方向发展,还是往“大家都搭建自己的工作流,只是工作流里其中一个节点”的方向走?


Oliver Wang:我肯定不认为,所有广泛的用例都能被“一个模型”完全覆盖。所以我觉得,未来一定会长期存在“多模型共存”的状态。举个例子,我们可以把我们的模型优化得特别擅长“严格遵守指令”,确保它严格照你的意思来做。 但这对那些希望模型更“有想象力”、希望它能“接管创意、放飞一下”的用户来说,可能反而不理想。用户类型很丰富,因此这里有足够多的空间,可以容纳很多类型的模型共存。所以这是我看到的未来方向。 我不觉得我们会走到一个“一个模型统治一切”的世界。


a16z:那我们再走到另一个极端,最小的小朋友这端。你觉得未来的幼儿园小朋友,会不会是先在平板上随便画几笔,让模型把它变成一幅漂亮的图,他们通过这种方式“接触”艺术?


Nicole Brichtova:我不确定想“把儿童画变成完美的漂亮图像”,但我觉得这里确实有一些东西可以挖。在这里它可以重新成为你的伙伴和老师,是以前你从来没有过的那种角色。我自己以前不会画画,但我觉得如果能用这些工具,真正教会你一步一步怎么画,也能帮你做点评,就像图像的“自动补全”一样,告诉你:“下一步你可以这样画”,或者给你几种选择,并且告诉你“这一步要怎么做”。我更希望未来是朝这个方向发展。 我们不希望每个五岁小孩画出来的东西都“完美无缺”。如果那样的话,我们大概会在这个过程中丢失一些非常重要的东西。


Justin Moore:作为一个在高中时在所有课程里,最吃力的一门课就是美术课的人,我个人其实当年会很乐意有这种“自动完美图像”。 但我知道,很多人希望小孩是能真正的学会画画。


Oliver Wang:我们一直在尝试让模型能够生成“儿童蜡笔画”风格的图像,这出乎意料地难。有点讽刺的是,有些东西之所以难生成,是因为它们的“抽象层次”非常高。 所以这种看似简单的画,反而非常难合成。


Oliver Wang:现在我们也在做一些“工作坊式评价”,用来看我们在这方面是否在变好。总体来说,我对人工智能在教育上的前景非常乐观。部分原因是我们大多数人都是“视觉型学习者”。 但现在大模型作为一个“导师”,能做的是“跟你聊天”,或者给你一堆文字让你读,这其实不是学生最自然的学习方式。 所以我认为这些新模型会在教育上发挥巨大潜力,因为它们可以给你“视觉线索”。想象一下当你在学一个概念时,你不仅能拿到文字解释,还可以同时看到配套的图像、示意图,直观地说明它是怎么运作的。 这样一来容易被更多学生理解。


推理模型与多模态:图像、语言和音频的汇合


a16z:还有一件事对我们来说特别有意思,当 Nano Banana 出来的时候,我们感觉它有一部分用例,简直就像一个“推理模型”。 比如你有一个图表完全是这样,你可以用视觉来解释知识。 所以这个模型不仅仅是在“近似视觉效果”,还带着推理、理解在里面。 你觉得我们是不是正走向这样的未来,所有大模型都会意识到要成为一个好的语言模型或视觉语言模型,就必须同时具备图像、语言、音频等多种模态能力?


Oliver Wang:完全同意。我对这些模型未来最期待的是能帮“人类完成更多事情的工具”。 想象一个未来,有一堆自主 agent 彼此对话、自动完成所有工作,那在那种世界里,“视觉”这种模态可能就没那么重要了。但只要“人”还在那里,任务的动机还来自人类,那我觉得“视觉模态”对于未来任何agent 来说,都会是非常关键的部分。


a16z:你觉得我们会不会走到这样一个阶段,我让模型生成一张图,它会“在那里思考”两小时,内部反复推理、打草稿、探索不同方向,然后再给我一个最终答案?


Nicole Brichtova:如果这个任务有必要这么做的话,可能不仅仅是针对一张图片。比如说,你在重新设计你的房子,你其实并不想参与每一个细节的过程,你只需要说:“这是我家的样子,这是一些我喜欢的灵感图。” 然后你就像把需求发给设计师一样,把这些发给模型,让它来做“视觉深度研究”。模型自己去干活,去查一查你家适合什么家具,最后再回来,给你展示几套方案。 毕竟你可能也不想自己坐在那里翻两小时的家居画册。


Oliver Wang:我还在想,比如装配说明书之类,把一个很复杂的问题拆成许多小步骤,本身就是一种非常有用的“沟通方式”。


三维世界 vs 二维投影:世界模型的两派观点


a16z:你认为我们最终会把3D技术也纳入世界模型吗?关于"世界模型"和"图像模型"如何结合的讨论很多,你觉得这条路会走向何方?


Oliver Wang:现实世界是三维的,所以一个包含3D表示的世界模型无疑有很多优势,比如能更好地保持物体在时间上的连续性。但问题在于,我们日常可用的训练数据,绝大部分都是三维世界在二维平面上的投影。因此,目前业界存在两种合理的观点。


我个人更倾向于"投影派"。我认为,只要我们专注于处理三维世界的二维投影,模型就能在内部学习到"潜在的世界表示",这足以解决绝大多数问题。我们在视频模型中已经看到了这一点。它们对3D的理解已经相当出色,甚至可以对生成的视频进行相当准确的三维重建。回顾人类历史,从洞穴壁画到今天的人机界面,我们其实一直非常擅长在二维投影上工作。


a16z:我很同意。我业余时间画漫画,而绘画本质上就是处理光影,在二维纸面上营造三维的错觉。但人与模型的区别在于,我们不仅能看,还能在真实世界里移动。比如我们看到一张桌子,就知道不能直接穿过去。如果一切都只在二维里表述,模型要如何解决"在世界中运动"的问题?


Oliver Wang:如果要解决的是“机器人”这类问题,3D表示确实至关重要。但在日常中,人类也常常依赖某种“投影记忆”,比如“看到那个建筑就左转”,而不是在脑中构建一个精确的3D地图。所以,对于“高层规划”,二维是合理的。但涉及到空间的真实运动,3D就不可或缺。这也是机器人技术离不开3D的原因。


角色一致性:跨越"恐怖谷"的实用临界点


a16z:你提到当模型足够“私人化”时,人们会很想尝试。但角色一致性非常难,存在巨大的“恐怖谷”问题。如果生成的是我不认识的人,我可能觉得还行。但如果是我认识的人,只要有一点不对劲,我就会本能地感到不舒服。在这种情况下,你们如何判断生成的效果是好的?主要靠用户反馈吗?


Nicole Brichtova:在开发初期,我们尝试用不认识的人脸来评估角色一致性,结果发现完全看不出问题。后来我们开始在自己身上测试,并很快意识到这才是正确的方法。因为人对自己和他人的脸最为熟悉,所以我们团队成员用自己的脸做了大量“肉眼评估”。通过在不同年龄、背景的人群中测试,我们确保了模型在各类群体上都能良好工作。


Oliver Wang:我补充一点,这个领域的“评估”本身就极度困难,因为人的感知非常主观,对细节的敏感度差异巨大。因此,要判断一个模型在角色一致性上是否足够好,很难有统一标准。我认为目前还有很大提升空间,但对于许多用例,我们已经达到了一个实用临界点。一旦模型在一致性上超过某个质量阈值,它的应用场景就会突然“起飞”。


多指标权衡:模型评估没有唯一答案


Justin Moore:在图像和视频领域,当所有模型都越来越好时,把一个模型在所有维度的质量“压缩”成一个分数变得非常困难。比如一个任务,既要替换角色,又要改变风格,有的模型可能在一致性上做得更好,另一个则在风格上更出色。你们在做训练和部署决策时,会优先关注哪些特性,甚至愿意为此牺牲其他指标吗?


Oliver Wang:会的。这个领域很有趣的一点。就是没有绝对的“正确答案”,充满了品味和偏好,这些会真实地映射到模型上。你甚至可以从各家实验室发布的模型中,看出他们对“好图像”的偏好差异。很多时候,我们的决策是基于一种直觉:“我说不出具体理由,但我就是更喜欢这种视觉效果”。


Oliver Wang:这对你们来说挑战应该很大,因为Gemini的用户遍布全球,不像其他公司只瞄准专业创作者。你们如何决定“大家到底想要什么”?


Nicole Brichtova:我们内部有一套“绝对优先级”。比如,角色一致性是我们绝不允许在新模型上退步的。此外,我们非常重视“照片风格”的真实感,因为我们自己喜欢,而且广告等场景有大量需求。当然,我们也会做取舍,比如第一版模型在“文本渲染”上还不够理想,但我们认为它在其他核心维度足够出色,可以先发布,后续再改进。


创作者工具:从结构化控制到意图理解


a16z:过去我们有很多类似 ControlNet 的“外挂模型”,通过输入结构化信息来实现精确控制。但新一代模型似乎更强调“纯文字操作”或“参考图”。“结构化控制”的路线未来会回归吗?从创作者视角看,精确控制姿势等功能非常有吸引力。最后是不是一切都会收敛到“一个超大模型,什么都往里丢”的范式,还是说结构化的东西依然有它的价值?


Oliver Wang:我觉得永远会有一类用户,他们需要的控制粒度是默认接口给不了的。但我们更希望模型在“理解意图”上越做越好。艺术家创作时最想要的,其实是“表达意图被准确理解”。当模型能从简单的指令中领会你“想要什么感觉”,并结合你的个人偏好,它就能在很大程度上决定采用何种编辑策略。当然,对于那些对每个像素都极度在意的用户,他们可能还是会用传统的专业工具完成最后一步的微调。


a16z:比如说,你想要一张图里有26个人,每个人摆出一个姿势拼出整个英文字母表。这种场景,我觉得我们离“第一下就做对”还有一点距离。


Nicole Brichtova:换个角度想,你真的想自己去“提取姿态信息并喂给模型”吗?还是你更希望给一张参考图,告诉模型“我想要这样的效果”,然后让模型自己去想办法实现?比如这里有26个人,摆出不同姿势,同时还能切换风格。


Oliver Wang:对,我个人不会花大量时间去做一个专门的"自定义界面",只为让你生成"26个人排队"的图片。这类问题更应该通过提升模型自身的能力来直接解决。


像素、矢量与混合表示:图像的底层会走向哪里


a16z:图像的底层表示方式未来会变吗?艺术家会使用矢量、图层、笔刷纹理等多种格式。像素会是图像生成的终极表示方式吗?


Oliver Wang:有趣的问题。某种意义上,一切都是像素的子集,包括文本。问题是,只靠像素我们能走多远?如果模型响应迅速且能处理好多轮交互,我们仅在“像素域”就能走得很远。人们想离开纯像素域,通常是为了“可编辑性”,比如随时修改文字或拖动物体,这时矢量图等结构化表示就很有用。所以,可以想象一种“混合表示”。但如果纯像素域的可编辑性足够强大,那可能就够了。另外,现在一个模型既能写代码又能生成图像,这两者交叉的地方会产生很多有趣的东西。


a16z:这点特别好,因为我确实看到过一个推文,有人让模型在 excel 去复刻一张图让每一个单元格代表一个像素,这个实验本身就很好玩。本身是一个“写代码的模型”,理论上并不“懂图像”,但它居然真的做出来了。还有那个经典的“骑自行车的鹈鹕测试”。


谁来拥有与 Nano Banana 交互的界面:平台 vs 垂直应用


Justin Moore:关于产品层面,你们怎么看“谁来拥有与模型交互的界面”?是你们自己做主界面,还是更希望开发者基于你们的模型构建各种垂直应用,比如广告、教育、设计等?


Nicole Brichtova:我觉得是“三者都要”。首先,Gemini会是大家探索能力的重要入口,好玩是通往实用的入口。其次,有些界面我们自己非常有兴趣去探索,比如我们有团队在重新思考“导演的工具应该长什么样”,因为我们离模型底层近,可以做“高度耦合”的体验。最后,有些领域我们大概率不会自己做,比如“建筑设计事务所专用的完整软件”。我们希望开发者和企业客户能拿我们的模型去做这类垂直产品,探索下一代工作流。所以答案是三个方向我们都想要。


核心能力"倍增器"与未来应用


a16z:你们认为这个模型的核心能力“倍增器”是什么?即那种一旦解锁,就能衍生出一整串新应用的能力。


Nicole Brichtova:目前一个关键点是“延迟”。当你只需等10秒而不是2分钟就能看到下一帧时,与模型迭代创作的体验是完全不同的。当然,前提是质量要过关。所以顺序是先达到质量线,之后速度才会成为真正的倍增器。另一个倍增器是“信息可视化”,尤其在教育领域。这要求模型不仅要画得好看,还要保证事实性。最终,我们或许可以拥有一套完全为你量身定制的、图文并茂的教科书,并且具备国际化能力,让知识以视觉化的方式触及更多人。


a16z:那你如何看待“图片生成视频”?我看到有人用脚本一帧帧生成图像,最终汇成视频。这是否意味着一切的终点都是视频?


Oliver Wang:我认为是。视频和图像联系紧密。视频本质上就是“在时间轴上连续发生的动作”。现在的图像编辑可以看作一种“低帧率的视频互动”。大家真正想要的是实时互动的视频体验,而这正是整个领域在努力的方向。


模型的惊人能力与个人化应用


a16z:你们大概是全世界在图像模型上经验最丰富的那0.001 % 人。作为图像模型领域的顶尖专家,你们个人最喜欢的使用场景是什么?


Oliver Wang:如果不只是做测试。 我不确定自己是不是你说的“最顶尖用户”,不过我可以讲讲我自己的用法。“个人化”是最打动我的部分。我用模型做的最棒的事情,都是和我的两个小孩一起完成的。比如让他们的玩偶“活过来”,变成故事主角。这种体验非常有满足感。编辑模型最大的魅力之一,就是你可以把它的能力聚焦在“对你最重要的东西”上。


Nicole Brichtova:是的,你是在创作一些过去从未想过的内容,比如为家人制作专属的节日卡片。我们也会挑战模型的边界,比如你能不能在纯像素空间里画一张精确的图表?。我们团队里有专门的同事,会不停地用模型做各种你想象不到的实验来推边界。


a16z:你见过最让你惊讶的案例是什么?


Nicole Brichtova:有时是看起来很简单的东西,比如“纹理迁移”。用户会拿一张人像,然后说“如果这个人是用这块木头的纹理画的会怎样?”我从没想过这会成为一个用例,但用户总能不断拓宽我们对可能性的想象。


a16z:这也是一个很有意思的例子。从“世界知识”的角度看,纹理本身其实是一个三维概念,因为它涉及到表面的凹凸、光影等等。 但模型做的似乎是一个纯二维的迁移。


Oliver Wang:我最佩服的是那些真正考验模型“推理能力”的场景。比如,让模型解几何题,填补缺失信息,或从不同视角展示几何结构。我们甚至见过有人给模型一张代码截图,让它生成对应的网页。最酷的例子是,我一个同事拍下他论文里的一张结果图,擦掉结果部分只保留输入,然后让模型把所有任务的结果以图像形式重新补全,而且它做到了。


a16z:这真的非常厉害。 太酷了。 那有没有人基于这种能力做产品?就是你觉得这里面会长出什么样的应用?


Oliver Wang:我觉得基于这种“零样本迁移能力”的问题求解,还有很多我们现在还没完全摸清边界的空间。其中有不少会非常实用。 比如,如果你想要一个方法,用来解决某个具体问题 ,比方说找出场景里每个表面的法线方向,你可能就可以让模型给你一个合理的估计。 我觉得在“理解场景”、“推断结构”这一类问题上,有非常多可以通过零样本或小样本来解决的事情,是我们还没完全探索完的。


a16z:你刚才提到的“世界知识迁移”特别有意思。 在很多世界模型、视频模型里,往往会有一个“状态保持”的机制比如说,你把视线挪开,并不意味着那把椅子就应该消失或变色,因为在真实世界里,状态不会这样变。 你怎么看这个问题?你觉得这些东西对图像模型也有相关性吗? 这是你们会刻意去优化的东西吗?


Oliver Wang:如果你想象一个图像模型拥有一个很长的上下文窗口,你可以在里面放各种东西文本、图像、音频、视频那模型在生成最终输出图像或视频时,肯定是会在这个上下文上做推理的。 所以我觉得,从模型能力角度看,它们已经具备做这种“跨帧状态推理”的基础。 


AI与艺术家:掌控感与创作主体性


a16z:为什么很多视觉艺术家对AI技术持怀疑态度?我坚信这些技术是在赋能艺术家。


Oliver Wang:这很大程度上和“掌控感”有关。早期模型是“一键生成”,艺术家觉得创作决定权被剥夺了。随着模型越来越可控,这种担忧会减弱。另外用户对千篇一律的AI生成图已经产生“审美疲劳”,这反过来要求创作者必须利用AI做出真正有创意的作品。我们仍然需要艺术家,而且艺术家能分辨出一个作品背后是否投入了大量的努力。所以我认为,它永远都是一个门槛,我们仍然需要有人去做这种事。


Nicole Brichtova:当然,这里面还有非常多“手艺”和“品味”的积累,那些往往要几十年才能形成。 而我并不认为这些模型本身是有“品味”的。 所以你之前提到的那些反应,很多可能也来源于此就是“品味”和“手艺”的部分。 因此我们会在所有模态上和大量艺术家合作。 包括图像、视频、音乐。 因为我们真的很在意,要一步一步和艺术家一起把技术做出来。他们能帮助我们不断推动“可能性的边界”。很多艺术家对这些东西本身非常兴奋,但他们带来的不只是热情,还有几十年的专业经验和设计语言。


比如我们最近和设计师Ross合作,用他的手稿去微调模型,使用的是他自己的手绘草图,这样他就可以在此基础上创作出新的作品。基于这些草图,我们设计出了一把真实的实体椅子,目前已经做出了原型。有很多像他一样的艺术家,希望把他们长期积累的专业知识,以及他们用于描述自己作品的那套丰富的“视觉语言”,带入到与模型的互动中。 他们想通过与模型“对话”,推动自己的创作达到新的前沿。这个过程其实并不是一句提示词、两分钟就能完成的事。它依然需要大量的艺术品味、人类创造力以及创作工艺的投入,去完成一个真正能称为“艺术”的作品。


a16z:归根结底,这仍然是一种工具,需要背后的人去表达情感、情绪还有故事以及一切人类的主观体验。


Nicole Brichtova:完全正确。当你看着作品的时候,真正打动你的就是这种人性的部分,三十年去思考某件事,然后把那份思考倾注进作品时,你的反应是完全不同的。那才是“艺术品”。


Oliver Wang:我觉得还有一种现象,大多数欣赏创意作品的人即使是那些非常热爱艺术的人,他们往往并不知道自己接下来会喜欢什么。你需要一个有独特想法的人,他可能能做出与众不同、有趣的作品。但他们自己并不会想到要去那样创作。 所以,当我们在优化这些模型时一种方式是针对所有人的“平均偏好”来训练模型,但我认为那样做不会得到有趣的结果。你会得到“大家都还可以”的作品,但不会出现那种能让人重新思考艺术边界的震撼之作。


a16z:就好比说模型也许有一个“先锋艺术版”。那在另一端,可能就有一个,比如“市场版”或“营销版”模型,它会非常可预测、非常直白。


未来挑战,被忽视的能力与“挑柠檬阶段”


a16z:最后几个问题。有没有哪个功能是你们知道模型能做到,但人们很少使用的?


Oliver Wang:是的。我们一直很惊讶几乎没人分享“多图生成”的内容,即模型在同一提示下生成多张连贯图像的能力。比如生成一个睡前故事,模型会在一系列图像中保持同一角色的一致性。人们还没意识到这个功能的价值。


a16z:你们目前最期待解决的技术挑战是什么?


Oliver Wang:图像质量的上限还远未到头。过去我们处在“挑樱桃阶段”,展示模型最好的作品。现在我们进入了“挑柠檬阶段”,即关注模型生成的“最差结果”能达到什么水准。提升质量下限,才能极大拓展应用场景。理论上给模型足够多次尝试,它总能产出惊艳作品。但要让它每次都输出稳定的好结果,那就难多了。当模型可靠性得到保证后,我个人最感兴趣的方向是教育与知识可视化。


Nicole Brichtova:另一点是更好地利用模型的“上下文窗口”。如果模型能完整读入并严格遵守一份长达150页的品牌手册来生成内容,那将是一个全新的控制层级,会极大提升大型品牌对AI的信任度。理想状态下,模型应该能自己审查、批判并改进输出,就像我们在文字模型上看到的“推理时间延长”带来的提升一样。所以这将会是非常关键的一步。


文章来自于“深思SenseAI”,作者 “SenseAI”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI漫画

【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用,可以让没有任何绘画基础的用户完成属于自己的漫画创作。

项目地址:https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file

在线使用:https://aicomicfactory.app/

2
AIExcel公式

【开源免费】smart-excel-ai是一个输入你想要的Excel公式的描述,即可帮你生成对应公式的AI项目

项目地址:https://github.com/weijunext/smart-excel-ai

在线使用:https://www.smartexcel.cc/(付费)

3
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

4
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

5
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

6
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0