AI资讯新闻榜单内容搜索-扩散模型

扩散模型奖励微调新突破：Nabla-GFlowNet让多样性与效率兼得

本文作者刘圳是香港中文大学（深圳）数据科学学院的助理教授，肖镇中是德国马克思普朗克-智能系统研究所和图宾根大学的博士生，刘威杨是德国马克思普朗克-智能系统研究所的研究员，Yoshua Bengio 是蒙特利尔大学和加拿大 Mila 研究所的教授，张鼎怀是微软研究院的研究员。此论文已收录于 ICLR 2025。

来自主题: AI技术研报

8285 点击 2025-04-13 15:49

CVPR 2025 HighLight｜打通视频到3D的最后一公里，清华团队推出一键式视频扩散模型VideoScene

随着 VR/AR、游戏娱乐、自动驾驶等领域对 3D 场景生成的需求不断攀升，从稀疏视角重建 3D 场景已成为一大热点课题。

来自主题: AI技术研报

7599 点击 2025-04-09 16:28

7B扩散LLM，居然能跟671B的DeepSeek V3掰手腕，扩散vs自回归，谁才是未来？

语言是离散的，所以适合用自回归模型来生成；而图像是连续的，所以适合用扩散模型来生成。在生成模型发展早期，这种刻板印象广泛存在于很多研究者的脑海中。

来自主题: AI技术研报

7102 点击 2025-04-06 16:48

一秒十图！英伟达MIT联手刷新SOTA，一步扩散解锁实时高质量可控图像生成

SANA-Sprint是一个高效的蒸馏扩散模型，专为超快速文本到图像生成而设计。通过结合连续时间一致性蒸馏（sCM）和潜空间对抗蒸馏（LADD）的混合蒸馏策略，SANA-Sprint在一步内实现了7.59 FID和0.74 GenEval的最先进性能。SANA-Sprint仅需0.1秒即可在H100上生成高质量的1024x1024图像，在速度和质量的权衡方面树立了新的标杆。

来自主题: AI技术研报

9475 点击 2025-03-31 16:16

视频可以精准控制了！一句话给熊戴眼镜的那种，扩散模型立功，浙大悉尼科技大学出品 | ICLR 2025

如何让你的模型能感知到视频的粒度，随着你的心思想编辑哪就编辑哪呢？

来自主题: AI技术研报

8055 点击 2025-03-26 09:36

Uni-3DAR用自回归统一微观与宏观的3D世界，性能超扩散模型256%，推理快21.8倍

它名为 Uni-3DAR，来自深势科技、北京科学智能研究院及北京大学，是一个通过自回归下一 token 预测任务将 3D 结构的生成与理解统一起来的框架。据了解，Uni-3DAR 是世界首个此类科学大模型。并且其作者阵容非常强大，包括了深势科技 AI 算法负责人柯国霖、中国科学院院士鄂维南、深势科技创始人兼首席科学家和北京科学智能研究院院长张林峰等。

来自主题: AI技术研报

7900 点击 2025-03-26 09:10

Uni-3DAR用自回归统一微观与宏观的3D世界，性能超扩散模型256%，推理快21.8倍

从微观世界的分子与材料结构、到宏观世界的几何与空间智能，创建和理解 3D 结构是推进科学研究的重要基石。3D 结构不仅承载着丰富的物理与化学信息，也可为科学家提供解构复杂系统、进行模拟预测和跨学科创新的重要工具。

来自主题: AI技术研报

3722 点击 2025-03-25 15:21

爆火Block Diffusion引发LLM架构变革？自回归+扩散模型完美结合 | ICLR 2025

块离散去噪扩散语言模型（BD3-LMs）结合自回归模型和扩散模型的优势，解决了现有扩散模型生成长度受限、推理效率低和生成质量低的问题。通过块状扩散实现任意长度生成，利用键值缓存提升效率，并通过优化噪声调度降低训练方差，达到扩散模型中最高的预测准确性，同时生成效率和质量优于其他扩散模型。

来自主题: AI技术研报

10439 点击 2025-03-25 10:09

CVPR 2025|复旦&微软开源StableAnimator: 首个端到端ID一致性人类视频生成，Github Star破千

近年来，扩散模型在图像与视频合成领域展现出强大能力，为图像动画技术的发展带来了新的契机。特别是在人物图像动画方面，该技术能够基于一系列预设姿态驱动参考图像，使其动态化，从而生成高度可控的人体动画视频。

来自主题: AI技术研报

9307 点击 2025-03-20 09:34

无需百卡集群！港科等开源LightGen: 极低成本文生图方案媲美SOTA模型

文本到图像（Text-to-Image, T2I）生成任务近年来取得了飞速进展，其中以扩散模型（如 Stable Diffusion、DiT 等）和自回归（AR）模型为代表的方法取得了显著成果。然而，这些主流的生成模型通常依赖于超大规模的数据集和巨大的参数量，导致计算成本高昂、落地困难，难以高效地应用于实际生产环境。

来自主题: AI技术研报

7320 点击 2025-03-20 09:18