
CityDreamer4D: 下一个世界模型,何必是视频生成模型?
CityDreamer4D: 下一个世界模型,何必是视频生成模型?在过去的两年里,城市场景生成技术迎来了飞速发展,一个全新的概念 ——世界模型(World Model)也随之崛起。当前的世界模型大多依赖 Video Diffusion Models(视频扩散模型)强大的生成能力,在城市场景合成方面取得了令人瞩目的突破。然而,这些方法始终面临一个关键挑战:如何在视频生成过程中保持多视角一致性?
在过去的两年里,城市场景生成技术迎来了飞速发展,一个全新的概念 ——世界模型(World Model)也随之崛起。当前的世界模型大多依赖 Video Diffusion Models(视频扩散模型)强大的生成能力,在城市场景合成方面取得了令人瞩目的突破。然而,这些方法始终面临一个关键挑战:如何在视频生成过程中保持多视角一致性?
论文一作刘少腾,Adobe Research实习生,香港中文大学博士生(DV Lab),师从贾佳亚教授。主要研究方向是多模态大模型和生成模型,包含图像视频的生成、理解与编辑。作者Tianyu Wang、Soo Ye Kim等均为Adobe Research Scientist。
本文介绍了一篇由浙江大学章国锋教授和商汤科技研究团队联合撰写的论文《StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation》。
快,着实是有点太快了。 就在这两天,一个国产 Sora,因为生成视频速度太快,在外网火图片了一把。
Video Ocean V2.0,刚刚火爆上线了!它孵化自超火的23k+ stars项目Open Sora,全面升级的视频质量让X网友集体上头了。自媒体、制片人、学生党纷纷惊呼:如此好用,居然还是免费!
新一年,霉霉也来送祝福啦,完全中文版哦。
上周末,外媒 VideoCardz 获得了一张非公版 RTX 5090 的包装盒照片,实锤了新一代旗舰显卡将使用 32GB GDDR7 显存。
奥特曼说,Sora代表了视频生成大模型的GPT-1时刻。
港科大团队重磅开源 VideoVAE+,提出了一种强大的跨模态的视频变分自编码器(Video VAE),通过提出新的时空分离的压缩机制和创新性引入文本指导,实现了对大幅运动视频的高效压缩与精准重建,同时保持很好的时间一致性和运动恢复。
Sora、Genie等模型会都用到的Tokenizer,微软下手了—— 开源了一套全能的Video Tokenizer,名为VidTok。