微软开源视频Tokenizer新SOTA!显著优于Cosmos Tokenizer和Open-Sora
微软开源视频Tokenizer新SOTA!显著优于Cosmos Tokenizer和Open-SoraSora、Genie等模型会都用到的Tokenizer,微软下手了—— 开源了一套全能的Video Tokenizer,名为VidTok。
来自主题: AI技术研报
8141 点击 2024-12-26 15:43
Sora、Genie等模型会都用到的Tokenizer,微软下手了—— 开源了一套全能的Video Tokenizer,名为VidTok。
BLT 在许多基准测试中超越了基于 token 的架构。
tokenizer对于图像、视频生成的重要性值得重视。
只需Image Tokenizer,Llama也能做图像生成了,而且效果超过了扩散模型。
在生成式模型的迅速发展中,Image Tokenization 扮演着一个很重要的角色,例如Diffusion依赖的VAE或者是Transformer依赖的VQGAN。这些Tokenizers会将图像编码至一个更为紧凑的隐空间(latent space),使得生成高分辨率图像更有效率。
技术大神卡帕西离职OpenAI以后,营业可谓相当积极啊。