是不是以为我又标题党了。
但是这玩意我觉得真的够强,在我实际工作中也已经用上好几天,所以,体验下来,我是真的觉得对的这个史诗级名号。
这个神秘的AI绘图的新模型,叫做,Nano Banana。
虽然现在还只能在LMArena盲测的时候随机出现,还没有公司出来认领,但是大概率是Google家的,AI绘图新模型。
强到离谱。
因为它的生图一致性,实在很顶。
直接给你们上一个case。
左边,是我的照片。
右边,是我用Nano Banana生成的最新一期视频封面的底图。
而我的Prompt,就是我把我自己的照片,扔进去,然后写了一段:
“A man with the same facial features and appearance as the person in the reference image is facing the camera. One hand is making a gesture that forms the number "0," while the other hand is holding three colorful children's picture books. His expression is natural and engaged, with a lively and playful pose. The scene conveys a lighthearted and humorous atmosphere. The background is a simple indoor setting with soft natural lighting. Realistic photographic style, 4K resolution, high detail, shallow depth of field.”
你们可以看到,Nano Banana几乎完全保留了我的面部特征和表情,连嘴角弧度都是一致的,只是变了动作和手势。
人物一致性堪称完美。
而与它相对比,其他几家的生成结果是这样的。
我拼了一张图,你们可以直观对比一下。
最左边是GPT-4o,几个月前刚出来的时候,感觉还是挺好用的,但是人物一致性简直就是一坨,现在再一对比,这泛黄的滤镜,真的可以直接打入冷宫了。
中间是Flux Kontext,跟我长得,感觉完全不是一家人...emmmmm,而且把表情换成了憨笑,我也没让它换,它自作主张给我换了。
而最右边即梦的版本,使劲的方向干脆就错了,衣服上的图标什么的倒是保留的很好,人脸完全不对劲,手上的绘本也很奇怪。
对比下来,Nano Banana完胜。
做封面这种场景,我其实就一个要求,长得像我。
但这个要求,以现在很多AI目前的一致性水平,还是达不到。
而如今,用Nano Banana,基本上,roll一两次就行了。
真的很爽。
不过现在这个Nano Banana,非常神秘。
它现在只出现在LMArena上。
如果对大模型评测比较了解的朋友可能会知道,这就是全球现在最主流的大模型竞技场,
主要的评测形式,就是两个模型匿名对战,用户根据生成结果投票,网站再根据投票结果,用一系列算法来计算模型排行。
很多厂子的新模型,在正式放出来之前,也经常会用一个特殊的代号,扔到LMArena上去给用户盲测一下,看看用户那边的最终效果。
而这次的Nano Banana,其实就是这么一个提前放出来的神秘模型,目前没有任何公开使用链接,但是在LMArena上做生图评测的时候,会被随机到。
本来生图这个江湖,是seedream、flux、gpt、google imagen这些模型在混战。
但有一天,大家测评的时候突然发现,卧槽,怎么有个从来没听过的Banana混入其中?
甚至,这个Nano Banana在已有的生图模型里都找不到,只有在随机测评时才会出现,偷感超重。。。
然后大家又发现,卧槽,怎么这个Banana,效果还挺好的。。。
而且,人物一致性,近乎无敌。
于是,Nano Banana就在外网上火起来了。
大家奔走相告,一堆人在LMArena上疯狂roll图,就为用到Nano Banana做一些事,甚至有人,把纸片人变成3D手办。
给手办加个酷炫背景。
还做出了各种意想不到的梦幻联动。
人物几乎完美一样。
也有人开始搜索,这个之前在江湖上没名没姓的Nano Banana,到底师出何门。
然后发现,这个模型好像是google家的。
Google目前还没有出来认领Nano Banana,但我只是套路了Nano Banana两句,它就把自己的家底儿都交代了,在自己身上画了个大大的Google DeepMind。
大家基于此推测,Nano Banana应该是谷歌即将推出的新模型,低调来LMArena遛一圈,测测实力。
就解释了,为什么Nano Banana偷感超重,只在battle中出现,还是随机出现。。。
说下怎么用。
先登录LMArena网站:https://lmarena.ai/
然后选择顶上的battle模式,其他的什么都不用管,直接输入prompt和参考图。
它就会随机选择两个模型,给你生成两张图片。
但是它不会告诉你这俩模型都是什么,这时候,需要你去选择哪张图效果更好。
等你选完之后,它才会给你揭晓答案。
你会发现,选中的模型,可能并不是Nano Banana,这就对了,因为是盲测。。。
你也不知道啥时候会随到他,但是效果又确实爆炸的好。
这种神龙见首不见尾的情况还挺折磨人的,有时候连测四五次,nano都不出来。
更不用说过程中一直遭遇人机验证,还经常报错。有人懂我测的有多崩溃吗。。。
要不是看在它效果好的份上,我真的,早就不测了。。。求求了Google,啥时候上下AI Studio或者Gemini吧。
我自己大概跑了一天的时间,也给大家看看实际效果。
这次,我把Nano Banana、flux、gpt4o、即梦都拉过来一起测。
测完的图,直接拼在一起看效果,非常直观。
第一个case,是单个主体一致性。
我给了几个模型这样一张原图,然后让图中的女人直面镜头,伸出手来触碰镜头,仿佛打破了第四面墙。
然后,各家模型的效果是这样的。
左上Nano Banana,右上gpt4o,左下flux,右下是seedream。
这样看,效果还是非常直观的。
Nano Banana主体保持的很好,妆容、服饰、头饰都和原图一样。并且也做到了我提示词上的内容。
flux和seedream,主体还算大差不差,但是动作都有点别扭。
gpt主体性保持的最差,还非常固执地用着自己的比例和泛黄滤镜。。。
第一题,Nano Banana胜。
然后是多主体测试。
我用了一张很经典的电影海报《罗马假日》,提示词是,把男女主换成川普和马斯克,电影名改为doge holiday。
左上Nano Banana,右上gpt4o,左下flux,右下是seedream。
最成功的,依然是Nano Banana。
gpt4o还是老毛病,泛黄,马斯克的脸也没那么像。
flux更离谱,直接干出来一对并不怎么像马斯克的双胞胎。
不过这道题对seedream有点不公平,因为它无法生成川普的形象,最终只能用一个金发老头来替代。而且忘了给我生成马斯克。。。
第二题,还是Nano Banana赢了。
第三个case,是背景替换能力,我用了一张我在漫展上拍到的很酷的机甲。
提示词如下:
Replace the background with a cinematic post-apocalyptic ruin. The scene should feature destroyed buildings, rubble, and a dark, dramatic atmosphere. Behind the character, a massive explosion with fiery glow and billowing black smoke rises, creating intense tension and a sense of chaos. The overall look should be highly detailed, with realistic textures, strong contrast, and a cinematic color grade. Photorealistic style, 4K resolution, high detail.
一样的顺序,左上Nano Banana,右上gpt4o,左下flux,右下seedream3.0。
背景生成效果最好的,还是Nano Banana。
随着爆炸发生,主体也被爆炸产生的强光照亮了,光影的真实感更强,整个画面对比更强烈。后面的废墟大楼也有更多细节。
flux和gpt的背景就有点糊成一团,比较草率。
seedream背景也有点草率,最好玩的是,居然还莫名其妙增加了一个蹲在地上的程序猿= =
Nano Banana,再拿一局。
第四个case,是主体一致性+背景替换。
提示词写了一大串,我就不贴了,大意是,把这个手办放进盒子里。
还是和之前一样的顺序。
这张图乍一看,只有gpt需要被叉出去。
但仔细一看,flux悄悄魔改了眉眼和表情,让本来元气满满的小手办显得不是很有精神。
seedream这次能和Nano Banana打个平手。
再看看动作迁移能力,没有特别趁手的图,我就用了鸡你太美的表情包和一张我已经用到包浆的照片。
因为即梦不支持多图参考,所以这一轮只有三个选手参与测评。
从左到右,Nano Banana,gpt,flux。
Nano Banana还是最强,主体和动作保持的都很好。
但我真想把中间的gpt叉出去,看着就火大,有病。。。
下面一个,测的是人物情绪。
我用了一对酷哥酷姐,几个场景分别是:高兴、生气、一个人嘲笑另一个人。
这是两个人在笑。
这是他俩发火了。
这是男的吃了哈利波特怪味豆里鼻屎味的豆子,女的在笑话他。
一整个看下来,最强的还是Nano Banana,无论做什么大表情,人物都不会崩。
不是,这个人物一致性和动作的遵循,实在是太特么牛逼了。
倒数第二个,是细节修改能力。
底图是这张报纸,提示词是,把中间的skor四个字母换成kazi。
只有Nano Banana完全遵守了指令,只改了中间四个字母,其他的没增也没删。
最后一个case,是风格转换。
原图在此。
我分别做了赛博朋克风格,梵高风格,还有水墨画风格。
赛博朋克这张,Nano Banana的完成度是最高的,无论是画面的精细程度,还是人物的一致性保持,都拉开很大一截差距。
梵高风格的这一张,也是Nano Banana笔触更细腻,人物更一致。
水墨画风格,结论还是一样的,Nano Banana,真的很强。。。
以上,就是全部的测评。
从生图效果来看,Nano Banana,完胜。
seedream和flux,一次直出的效果不如Nano Banana,但是整体质量还可以,就是需要多抽点卡。
gpt4o,我实在是不想评价它。。。
而看完Nano Banana的测评,你们应该也就知道,怎么只用一张照片+Nano Banana,就做出N个动作的真人视频封面了。
答案就是,带着你自己想要当封面的个人照片,和你希望的提示词:表情,动作,背景,直接去LMArena上,开battle模式生图。
生成出来之后,凭直觉选择你觉得更好的那一张,不用怀疑,大部分情况下,你觉得最完美的那一个,大概率就是Nano Banana生成的。
然后把图片下载下来就完活儿了。
没有用过Nano Banana的朋友们,我真的劝你们,赶快去用,快点。
另外,实在是感叹一句,Google真的还是太全面了。
感觉现在的Google,真的是多点开花,全面领先。
底蕴太厚了,太牛逼了。
目前的一致性之王,当之无愧的属于Nano Banana。
不知道下一次,这顶桂冠。
会花落谁家?
文章来自于微信公众号“数字生命卡兹克”。
【部分开源免费】FLUX是由Black Forest Labs开发的一个文生图和图生图的AI绘图项目,该团队为前SD成员构成。该项目是目前效果最好的文生图开源项目,效果堪比midjourney。
项目地址:https://github.com/black-forest-labs/flux
在线使用:https://fluximg.com/zh
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0