AI资讯新闻榜单内容搜索-扩散模型

任意条件，「可控」文生图扩散模型综述 | TPAMI'25

北邮最新综述探讨了文生图扩散模型的可控生成技术，总结了在文本条件之外引入新条件信号的方法，从任务和方法两个层面梳理了可控生成技术。

来自主题: AI技术研报

9282 点击 2026-01-19 08:55

Sebastian Raschka 2026预测：Transformer统治依旧，但扩散模型正悄然崛起

站在 2026 年的开端回望，LLM 的架构之争似乎进入了一个新的微妙阶段。过去几年，Transformer 架构以绝对的统治力横扫了人工智能领域，但随着算力成本的博弈和对推理效率的极致追求，挑战者们从未停止过脚步。

来自主题: AI技术研报

10162 点击 2026-01-14 15:25

一个模型统一4D世界生成与重建，港科大One4D框架来了

近年来，视频扩散模型在 “真实感、动态性、可控性” 上进展飞快，但它们大多仍停留在纯 RGB 空间。模型能生成好看的视频，却缺少对三维几何的显式建模。这让许多世界模型（world model）导向的应用（空间推理、具身智能、机器人、自动驾驶仿真等）难以落地，因为这些任务不仅需要像素，还需要完整地模拟 4D 世界。

来自主题: AI技术研报

8963 点击 2026-01-13 16:13

多模态推理新范式！DiffThinker：用扩散模型「画」出推理和答案

在多模态大模型（MLLMs）领域，思维链（CoT）一直被视为提升推理能力的核心技术。然而，面对复杂的长程、视觉中心任务，这种基于文本生成的推理方式正面临瓶颈：文本难以精确追踪视觉信息的变化。形象地说，模型不知道自己想到哪一步了，对应图像是什么状态。

来自主题: AI技术研报

7569 点击 2026-01-08 15:20

清华朱军团队Nature Machine Intelligence：多模态扩散模型实现心血管信号实时全面监测

近日，清华朱军等团队提出了一种统一的多模态生成框架 UniCardio，在单扩散模型中同时实现了心血管信号的去噪、插补与跨模态生成，为真实场景下的人工智能辅助医疗提供了一种新的解决思路。

来自主题: AI技术研报

9604 点击 2025-12-30 15:14

让AI像人类画家一样边画边想，港中文&美团让模型「走一步看一步」

在文生图（Text-to-Image）和视频生成领域，以FLUX.1、Emu3为代表的扩散模型与自回归模型已经能生成极其逼真的画面。

来自主题: AI技术研报

11355 点击 2025-12-22 16:05

不靠死记布局也能按图生成，多实例生成的布局控制终于“可控且不串脸”了丨浙大团队

尽管扩散模型在单图像生成上已经日渐成熟，但当任务升级为高度定制化的多实例图像生成（Multi-Instance Image Generation, MIG）时，挑战随之显现：

来自主题: AI技术研报

10692 点击 2025-12-22 09:33

让扩散模型「可解释」不再降质，开启图片编辑新思路

过去三年，扩散模型席卷图像生成领域。以 DiT (Diffusion Transformer) 为代表的新一代架构不断刷新图像质量的极限，让模型愈发接近真实世界的视觉规律。

来自主题: AI技术研报

8359 点击 2025-12-16 16:27

里程碑时刻！首个100B扩散语言模型来了，技术报告揭秘背后细节

前段时间，我们在 HuggingFace 页面发现了两个新模型：LLaDA2.0-mini 和 LLaDA2.0-flash。它们来自蚂蚁集团与人大、浙大、西湖大学组成的联合团队，都采用了 MoE 架构。前者总参数量为 16B，后者总参数量则高达 100B—— 在「扩散语言模型」这个领域，这是从未见过的规模。

来自主题: AI资讯

10486 点击 2025-12-12 16:08

NUS LV Lab新作｜FeRA：基于「频域能量」动态路由，打破扩散模型微调的静态瓶颈

新加坡国立大学 LV Lab（颜水成团队）联合电子科技大学、浙江大学等机构提出 FeRA (Frequency-Energy Constrained Routing) 框架：首次从频域能量的第一性原理出发，揭示了扩散去噪过程具有显著的「低频到高频」演变规律，并据此设计了动态路由机制。

来自主题: AI技术研报

7776 点击 2025-12-12 15:34