测了十几个视频Agent后,
我悟道了,神功已成了,练出第六感了。
就使用过程有个很强烈的感受,
视频Agent生成过程中顶多也就是让我点点选项,或者直接针对某一处不满意的地方用对话形式修改,甚至可能我提了一个意见,直接整个片子都给我换了个不一样的。
一次性生成,痛,太痛了,干脆改名一次性浪费积分好了。想做一个拿得出手的视频,我还是希望对其中每一个镜头都有控制能力,
我可以不用,但不能没有。我需要裁剪它的长度,可以替换它的画面,可以在完整影片生成之后修改视频的台词画外音。
本来以为,距离这个阶段还要一段时间。
但能做到我上面提到这些能力的Agent,还真让我碰上了!
还是新进军AI视频领域的商汤科技带来的产品
Seko(商汤怎么老喜欢闷声搞大事啊?)
先看一个我用Seko做出来的短片,
这个丝滑程度。。。剧情策划、生成图片、视频、音乐都是在seko内完成,
然后我又立马追加了一条带剧情的小短片,
人物一致性和分镜逻辑做的还真行,
至少这个片子,是我不用怎么改就可以拿去发社交平台了的程度。
整个过程使用下来,
Seko,它可以做到“一键成片”,但它绝不仅仅只想做到“一键成片”而已。
它更像是从一个视频制作者的角度,倒推回来的产品结构。
把创意交给它,把控制权交给我们自己。
所以今天,我想好好写写 Seko。
写它是怎么从“一键成片”出发,又怎样成为了一个可调、可控、可协作的创作soulmate。
🔗 seko.sensetime.com
我们就拿一个做剧情短片的过程举例,来和大家一起看看Seko的功能和优势。
首先,我们先给seko一个剧情小短片的创意方向,
然后seko就会开始进行剧情策划、制作主要角色形象和场景概念、生成合适的音乐和分镜剧本,
仔细看每一部分内容写的都很详细,会罗列出亮点和关键信息,角色和场景的设计图还会把生成关键词展示出来,方便后续再生成或者修改,
对哪里不够满意的话可以在左下角的对话框内和seko持续对话修改,比如我这里让它帮我把皮克斯风格调整成宫崎骏动画风格,它就把角色、场景做出了相应的调整,还设计了更合理的分镜。
一切满意之后,点击生成视频就可以看到seko开始kukuku干活了,确定分镜、匹配风格、构思背景、思考构图、确定景别、确定灯光、细节确定等等等等,然后我们就能拿到所有分镜图片,
点击每一张分镜图,都会在左边的对话中显示出对应的提示语,可以通过直接修改提示语的方式重新生成图片,也可以对话修改图片。
然后根据自己的需要,可以选择一键自动把所有图片转成视频。
也可以手动调整单个镜头,点击分镜画面-选择转视频-可以调整视频提示语或者添加下一帧画面作为尾帧,做出丝滑转场的首尾帧镜头。
看看分别用单镜头和首尾帧生成的效果,动态效果还是非常不错的,两种效果可以适配不同的场景需求,比如画面全部用首尾帧的话就可以制作开头我放出来的第一个视频的效果。
单镜头图片生成视频效果
和下一个画面首尾帧生成效果
而且可以看到,seko的整个页面像是采集了剪辑工具和AI对话功能的各家所长,
在这个页面中,我们既可以完成增加删减镜头、确定是否添加字幕,
还可以剪辑镜头的时长,
替换背景音乐,
更换画外音配音或者使用对口型功能。
所有内容都制作完成后可以一键导出成片或者所有分镜视频,这对剪辑人也是非常友好的,意味着我既可以用成片去发布,也可以拿到单个的素材进行二次加工。
那么我们来看看生成好的成片吧,
故事整体来说是很流畅的,画面设计的也都很唯美,甚至会自动给不同的角色使用不同的音色。而且我们可以看到,视频中的角色一致性保持的很好,那是因为在生成每一张图片时,seko都会自动给角色进行关键词标注,从而让一致性更强。
更重要的是,seko保持角色一致性的方式不止这一种,我们还可以在主页这里添加出演主体,然后直接上传自己已经确定好的角色图片,填写好信息,
然后再重复上面的步骤调整好视频,我们就可以获得一个这样的短片。视频内的角色形象几乎和我上传的没有差别,而且全程一致性保持的都很好。
其实从上面这个完整的流程就已经能够看出Seko目前的功能还是非常完善的,既有一键生成视频的Agent能力,还支持非常灵活的个人操作和修改,
所以在这样全面的功能加持之下,Seko目前能完成的短片种类非常之多。
比如说,我可以一次性就制作剪辑好的ASMR视频,效率翻倍,在社交平台迅速起号。
还能制作一条爆梗的剧情视频,比如说猫咪落水重生后暴打前任的连续短剧,这剧情我看了都想追更。
还可以制作一条广告片,主体一致性真的保持的不错,
还可以制作科普剧情小视频,画面的流畅度、动态、以及讲解的速度和画面逻辑都很在线,
应用场景可以说是拉满了,我现在就dream一个能够支持自己上传配音,或者接一个声音克隆功能。
用过这么多Agent了,
我觉得我们做视频追求的无非就是一点,能尽可能让我少修改就可以把生成的视频投入使用,
一定要改的话,
要尽可能对各个流程环节都能灵活的修改还不影响整个视频的大局。
这一点,
Seko给我们提供了一个参考答案。
兼顾便捷高效和可控性,
才是未来视频Agent的理想形态。
文章来自于微信公众号“卡尔的AI沃茨”,作者是“AI沃茨”。
【开源免费】MockingBird是一个5秒钟即可克隆你的声音的AI项目。
项目地址:https://github.com/babysor/MockingBird
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md