AI资讯新闻榜单内容搜索-diffusion

与Gemini Diffusion共振！首个扩散式「发散思维链」来了

近年来，思维链在大模型训练和推理中愈发重要。近日，西湖大学 MAPLE 实验室齐国君教授团队首次提出扩散式「发散思维链」—— 一种面向扩散语言模型的新型大模型推理范式。该方法将反向扩散过程中的每一步中间结果都看作大模型的一个「思考」步骤，然后利用基于结果的强化学习去优化整个生成轨迹，最大化模型最终答案的正确率。

来自主题: AI技术研报

8478 点击 2025-05-27 13:21

19岁少年「破解」谷歌新AI？每秒1479 token，扩散再战GPT!

年仅19岁少年，自称破解了谷歌最快的语言模型Gemini Diffusion，引爆社交平台。真相扑朔迷离，但有一点毫无疑问：谷歌I/O大会的「黑马」，比GPT快10倍的速度、媲美人类程序员的代码能力，正在掀起一场NLP范式大洗牌。

来自主题: AI资讯

9760 点击 2025-05-24 19:28

比Gemini Diffusion更全能！首个多模态扩散大语言模型MMaDA发布，同时实现强推理与高可控性

普林斯顿大学与字节 Seed、北大、清华等研究团队合作提出了 MMaDA（Multimodal Large Diffusion Language Models），作为首个系统性探索扩散架构的多模态基础模型，MMaDA 通过三项核心技术突破，成功实现了文本推理、多模态理解与图像生成的统一建模。

来自主题: AI技术研报

10463 点击 2025-05-22 17:30

12秒生成1万token！谷歌推出文本「扩散模型」Gemini Diffusion，研究员：演示都得降速看

谷歌又放新大招了，将图像生成常用的“扩散技术”引入语言模型，12秒能生成1万tokens。

来自主题: AI资讯

8914 点击 2025-05-22 10:23

首次！流匹配模型引入GRPO，GenEval几近满分，组合生图能力远超GPT-4o

流匹配模型因其坚实的理论基础和在生成高质量图像方面的优异性能，已成为图像生成（Stable Diffusion, Flux）和视频生成（可灵，WanX，Hunyuan）领域最先进模型的训练方法。然而，这些最先进的模型在处理包含多个物体、属性与关系的复杂场景，以及文本渲染任务时仍存在较大困难。

来自主题: AI技术研报

11690 点击 2025-05-14 10:19

CVPR2025｜MCA-Ctrl：多方协同注意力控制助力AIGC时代图像精准定制化

近年来，生成式人工智能（Generative AI）技术的突破性进展，特别是文本到图像 T2I 生成模型的快速发展，已经使 AI 系统能够根据用户输入的文本提示（prompt）生成高度逼真的图像。从早期的 DALL・E 到 Stable Diffusion、Midjourney 等模型，这一领域的技术迭代呈现出加速发展的态势。

来自主题: AI技术研报

12343 点击 2025-05-12 14:59

ICLR 2025 | 无需训练加速20倍，清华朱军组提出用于图像翻译的扩散桥模型推理算法DBIM

扩散模型（Diffusion Models）近年来在生成任务上取得了突破性的进展，不仅在图像生成、视频合成、语音合成等领域都实现了卓越表现，推动了文本到图像、视频生成的技术革新。然而，标准扩散模型的设计通常只适用于从随机噪声生成数据的任务，对于图像翻译或图像修复这类明确给定输入和输出之间映射关系的任务并不适合。

来自主题: AI技术研报

9376 点击 2025-05-08 14:23