
腾讯混元文生图大模型开源:Sora 同架构,更懂中文
腾讯混元文生图大模型开源:Sora 同架构,更懂中文又一家大模型开源了,这次是腾讯。
又一家大模型开源了,这次是腾讯。
这就是谷歌对 OpenAI 的回应。
说起剪映,相信大部分人对它的第一印象都是视频剪辑,凭借操作简单、使用方便等特点,剪映深受视频小白、剪辑爱好者,乃至视频工作者喜爱。
世界模型,即通过预测未来的范式对数字世界和物理世界进行理解,是通往实现通用人工智能(AGI)的关键路径之一。
多模态 AI 无疑是今年大模型的发展重点之一,Sora、Midjourney、Suno 等文生视频、文生图、文生音乐赛道的代表产品也是用户的关注热点。
基于 Diffusion Transformer(DiT)又迎来一大力作「Flag-DiT」,这次要将图像、视频、音频和 3D「一网打尽」。
“镜头围绕一大堆老式电视旋转,所有电视都显示不同的节目——20世纪50年代的科幻电影、恐怖电影、新闻、静态、1970年代的情景喜剧等,背景设置在纽约一家大型博物馆画廊。”
Sora 的第一批使用者,详细讲述了自己使用其生成完整视频的制作过程。
Sora刚发布后没多久,火眼金睛的网友们就发现了不少bug,比如模型对物理世界知之甚少,小狗在走路的时候,两条前腿就出现了交错问题,让人非常出戏。 对于生成视频的真实感来说,物体的交互非常重要,但目前来说,合成真实3D物体在交互中的动态行为仍然非常困难。
就在五一期间,OpenAI钦定的Sora早鸟用户——编剧兼导演Paul Trillo,重磅发布了「首支利用OpenAI Sora制作的官方MV」!