AI资讯新闻榜单内容搜索-扩散模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 扩散模型
扩散模型也有「Skills」了!魔搭开源11个现成模板,风格、修图、超清一键搞定

扩散模型也有「Skills」了!魔搭开源11个现成模板,风格、修图、超清一键搞定

扩散模型也有「Skills」了!魔搭开源11个现成模板,风格、修图、超清一键搞定

近期,专为Diffusion模型设计的插件框架——Diffusion Templates正式开源发布。这个框架能大幅降低可控生成技术的训练和使用难度,让开发者能够通过丰富的Templates来精准控制模型的生成结果。

来自主题: AI技术研报
7425 点击    2026-05-17 11:14
D-OPSD: 将OPSD引入扩散模型,让少步扩散模型「边跑边学」,还能学会新概念

D-OPSD: 将OPSD引入扩散模型,让少步扩散模型「边跑边学」,还能学会新概念

D-OPSD: 将OPSD引入扩散模型,让少步扩散模型「边跑边学」,还能学会新概念

阿里巴巴 Z-Image 团队联合香港科技大学、加州大学圣地亚哥分校、香港中文大学等机构提出 D-OPSD(On-Policy Self-Distillation),首个针对少步扩散模型的在线策略自蒸馏框架。D-OPSD 无需奖励模型、无需成对偏好数据,

来自主题: AI技术研报
8235 点击    2026-05-16 10:44
告别云端依赖!字节开源新作DreamLite让手机秒变 AI 画板

告别云端依赖!字节开源新作DreamLite让手机秒变 AI 画板

告别云端依赖!字节开源新作DreamLite让手机秒变 AI 画板

近日,字节跳动智能创作部门(Intelligent Creation Lab)提出新作 DreamLite,一个主干网络仅有 0.39B 参数的轻量级统一扩散模型,在单一网络内同时支持文生图(Text-to-Image) 和图像编辑(Text-guided Image Editing)两个任务,是目前已知首个实现这一能力的端侧模型。

来自主题: AI技术研报
8190 点击    2026-05-13 10:30
打破碎片化瓶颈!浙大&哈佛开源UniGeo,高保真相机可控编辑

打破碎片化瓶颈!浙大&哈佛开源UniGeo,高保真相机可控编辑

打破碎片化瓶颈!浙大&哈佛开源UniGeo,高保真相机可控编辑

UniGeo通过视频模型的连续视角先验与统一几何引导,实现稳定、高质量的相机可控图像生成,全面超越现有方法,在不同幅度的相机运动中提升跨视角一致性与结构稳定性。

来自主题: AI技术研报
6076 点击    2026-05-07 15:04
深扒GPT Image 2:疑似“吞”下了GPT-4o,OpenAI没把它当“生图”模型训练

深扒GPT Image 2:疑似“吞”下了GPT-4o,OpenAI没把它当“生图”模型训练

深扒GPT Image 2:疑似“吞”下了GPT-4o,OpenAI没把它当“生图”模型训练

GPT Image 2 凭什么这么强?是扩散模型又迭代了一版?是把 DiT 的参数量从 7B 扩到 20B?是训了更多高质量数据?先给结论:OpenAI 很可能已经不在“纯扩散模型”这条主赛道上了。他们已经把图像生成从“美术课”调到了“语文课”——用一个能读懂指令、能记住上下文、能理解物体关系的 LLM 主导语义规划,至于最后一步的像素生成,可能由扩散组件或其他解码器完成。

来自主题: AI技术研报
7548 点击    2026-05-03 22:58
视觉大模型迎来“o1时刻”:腾讯混元提出SOAR,让AI在生成中学会自我纠偏

视觉大模型迎来“o1时刻”:腾讯混元提出SOAR,让AI在生成中学会自我纠偏

视觉大模型迎来“o1时刻”:腾讯混元提出SOAR,让AI在生成中学会自我纠偏

近日,腾讯混元团队提出HY-SOAR (Self-Correction for Optimal Alignment and Refinement),一种面向扩散模型和流匹配模型的数据驱动后训练方法。

来自主题: AI技术研报
7645 点击    2026-04-23 14:44
训练提速4.6倍!FP4+BF16双轨并行,NVIDIA×港大×MIT联手重新定义扩散模型训练速度上限

训练提速4.6倍!FP4+BF16双轨并行,NVIDIA×港大×MIT联手重新定义扩散模型训练速度上限

训练提速4.6倍!FP4+BF16双轨并行,NVIDIA×港大×MIT联手重新定义扩散模型训练速度上限

当强化学习后训练的大规模 rollout 已经被证明能够提升图像生成模型的偏好对齐能力,推理负担就成了制约训练速度的核心瓶颈。来自 NVIDIA、港大和 MIT 的团队提出的 Sol-RL,通过「FP4 先探索、BF16 再训练」的后训练框架,将达到等效 reward 水平的收敛速度最高提升到 4.64x,在训练速度与对齐效果之间给出了一条更具工程可行性的解法。

来自主题: AI技术研报
8967 点击    2026-04-16 16:07
美团开源“语音克隆”模型,1B/3.5B双选,超自然复刻你的声音

美团开源“语音克隆”模型,1B/3.5B双选,超自然复刻你的声音

美团开源“语音克隆”模型,1B/3.5B双选,超自然复刻你的声音

相似度超越Seed-TTS、MiniMax-Speech等知名模型。昨晚,美团LongCat团队发布了文本转语音模型LongCat-AudioDiT,并开源1B、3.5B参数量的版本。这一模型的最大特点,是彻底抛弃了梅尔谱等中间表示,直接在波形潜空间进行基于扩散模型的文本转语音。通俗地说,这一模型直接根据声音本身的规律进行生成,“雕刻”出最原始的声音波形,从根源阻断数据转换的级联误差。

来自主题: AI资讯
8861 点击    2026-04-02 13:51
ICLR 2026 | 中国联通提出扩散模型缓存框架MeanCache,刷新多模态生成模型推理加速新基准

ICLR 2026 | 中国联通提出扩散模型缓存框架MeanCache,刷新多模态生成模型推理加速新基准

ICLR 2026 | 中国联通提出扩散模型缓存框架MeanCache,刷新多模态生成模型推理加速新基准

FLUX 、Qwen-Image 等多模态生成模型的推理速度一直是工业级多模态模型落地的痛点。传统的特征缓存(Feature Caching)方案在追求高倍率加速时,常因瞬时速度的剧烈波动导致轨迹漂移。

来自主题: AI技术研报
8070 点击    2026-04-01 16:13
CVPR 2026 | 让AI视频不再「串戏」:免训练精准控制多段动作,SwitchCraft一招破解逻辑崩坏

CVPR 2026 | 让AI视频不再「串戏」:免训练精准控制多段动作,SwitchCraft一招破解逻辑崩坏

CVPR 2026 | 让AI视频不再「串戏」:免训练精准控制多段动作,SwitchCraft一招破解逻辑崩坏

近年来,随着 Sora、Seedance 等文本到视频(T2V)扩散模型的飞速发展,AI 视频生成在视觉保真度与动态表现上已取得突破性进展。特别是近期备受瞩目的 Seedance 2.0,展现出了极其强大的多镜头叙事与复杂分镜控制能力。

来自主题: AI技术研报
10525 点击    2026-03-24 16:28