
DanceGRPO:首个统一视觉生成的强化学习框架
DanceGRPO:首个统一视觉生成的强化学习框架R1 横空出世,带火了 GRPO 算法,RL 也随之成为 2025 年的热门技术探索方向,近期,字节 Seed 团队就在图像生成方向进行了相关探索。
R1 横空出世,带火了 GRPO 算法,RL 也随之成为 2025 年的热门技术探索方向,近期,字节 Seed 团队就在图像生成方向进行了相关探索。
比起此前对生成时长、模型参数的强调,大半年来,不提Sora的AI视频玩家将这场“军备竞赛”的重点放在了三个维度上——卷一致性、卷可用性、卷可玩性。所谓的“一致性”指的是视频生成过程中帧与帧之间的过渡性、动作的连续性和场景的真实性等。
此次开源的 Wan2.1-VACE-1.3B 支持 480P 分辨率,Wan2.1-VACE-14B 支持 480P 和 720P 分辨率。通过 VACE,用户可一站式完成文生视频、图像参考生成、局部编辑与视频扩展等多种任务,无需频繁切换模型或工具,真正实现高效、灵活的视频创作体验。
字节拿出了国际顶尖水平的视觉–语言多模态大模型。
你好吖,我是布瓜~一个普通的二胎宝妈,也是一个AI变现探索者。
刚刚,鹅厂开源“自定义”视频生成模型HunyuanCustom。
在短视频成为亿万用户日常生活标配的当下,它不仅是一种娱乐方式,更是人们获取信息、表达观点、构建社交的主要媒介。
AI视频的DeepSeek时刻什么时候来?没想到吧,这就来了。
Hi,我想先请你只看下面这张照片,推测它的拍摄城市:
通过蒙特卡洛树搜索筛选高难度样本,ThinkLite-VL仅用少量数据就能显著提升视觉语言模型的推理能力,无需知识蒸馏,为高效训练提供了新思路。