6秒造一个「视频博主」,Pika让一切图片开口说话

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
6秒造一个「视频博主」,Pika让一切图片开口说话
5815点击    2025-08-13 16:59

制作一个视频需要几步?可以简单概括为:拍摄 + 配音 + 剪辑。


还记得 veo3 发布时引起的轰动吗?「音画同步」功能的革命性直接把其他视频生成模型按在地上摩擦,拍摄 + 配音 + 粗剪一键搞定。


那如果我就是想用自己迷人的声音呢?或者我自带精妙绝伦的配音?有没有其他解决方案?


有的朋友,有的!


8 月 11 日,Pika 推出了一个名为「音频驱动表演模型」(Audio-Driven Performance Model)的新模型。


6秒造一个「视频博主」,Pika让一切图片开口说话


Pika 允许用户上传音频文件(如语音、音乐、说唱或任何声音片段),并结合静态图像(如自拍或任意图片)生成高度同步的视频。视频中的角色会自动匹配音频,实现精确的口型同步(lip sync)、自然的表情变化和流畅的身体动作。


6秒造一个「视频博主」,Pika让一切图片开口说话


更通俗一点说就是,让任何一张静态图片,跟着你给的音频动起来,而且是活灵活现的那种。


你随便扔给它一张自拍,再配上一段马保国的「年轻人不讲武德」,你照片里那张帅气的脸,马上就能口型神同步,连眉毛挑动的时机都分毫不差,主打一个「本人亲授」。


这事儿要是放以前,你起码得是个顶级特效师,捣鼓个十天半个月才能弄出来。现在,Pika 告诉你,平均只要 6 秒


你没看错,就是 6 秒。你上个厕所的功夫,那边视频都生成好了,而且还是 720p 高清,长度不限,想让蒙娜丽莎给你唱一整首《忐忑》都行。


不过目前功能仅限 iOS 端,且需要邀请码,期待功能尽快开放。


6秒造一个「视频博主」,Pika让一切图片开口说话


话不多说,我们来看看网友测评。


首先来看看我们前面提到的自拍 + 音频,效果可以说是相当惊艳了。


6秒造一个「视频博主」,Pika让一切图片开口说话


6秒造一个「视频博主」,Pika让一切图片开口说话


  • 地址:https://x.com/WilliamLamkin/status/1954940047624372508


不论是说唱部分还是歌曲部分,唇同步准确性非常高,避免了以往 AI 视频中常见的「假唱」问题。


你如果仔细观察会发现说唱部分中间有一段停顿,人物的表情神态也很自然,活人感十足。不过也不是完美无缺,男歌手的手看起来就怪怪的。


Pika 官方也分享了几个用户制作的精彩视频。


6秒造一个「视频博主」,Pika让一切图片开口说话


  • 地址:https://x.com/pika_labs/status/1955007656302924192


对于不同语言,Pika 生成的效果看起来也非常不错。


6秒造一个「视频博主」,Pika让一切图片开口说话


还可以生成一段不是吉米的吉米秀,AI 演员的表现力非常不错。


6秒造一个「视频博主」,Pika让一切图片开口说话


用来拍电影怎么样?让亚洲面孔的大叔一口印式英语,吐槽露营的糟糕体验。


6秒造一个「视频博主」,Pika让一切图片开口说话


还可以直接来一场 live 秀!


6秒造一个「视频博主」,Pika让一切图片开口说话


我们可以预见,它将很快成为社交媒体上的新宠,诞生无数有趣的 Meme 和创意短片。


但它的潜力远不止于此:独立游戏开发者可以用它快速生成 NPC 对话动画,教育工作者可以制作更生动的讲解视频,甚至在不远的将来,我们每个人都能拥有一个专属的、能言善辩的 AI 数字分身。


当然,技术总是一把双刃剑。当任何图片都能被赋予任何声音时,如何辨别信息的真伪也成了我们必须面对的新课题。


但无论如何,一个全民参与、创意迸发的视频新时代,似乎已经敲响了大门。下一个引爆全网的病毒视频,或许就将出自你我之手。


文章来自于微信公众号“机器之心”,作者是“机器之心”。


AITNT-国内领先的一站式人工智能新闻资讯网站