Lumina-DiMOO:多模态扩散语言模型重塑图像生成与理解
Lumina-DiMOO:多模态扩散语言模型重塑图像生成与理解上海人工智能实验室推出了一款革新的多模态生成理解一体化的扩散语言模型 ——Lumina-DiMOO。基于离散扩散建模(Discrete Diffusion Modeling),Lumina-DiMOO 打破了多模态任务之间的壁垒,在同一离散扩散框架下,完成从 文本→图像、图像→图像、图像→文本的全栈能力闭环。
上海人工智能实验室推出了一款革新的多模态生成理解一体化的扩散语言模型 ——Lumina-DiMOO。基于离散扩散建模(Discrete Diffusion Modeling),Lumina-DiMOO 打破了多模态任务之间的壁垒,在同一离散扩散框架下,完成从 文本→图像、图像→图像、图像→文本的全栈能力闭环。
长期以来,多模态代码生成(Multimodal Code Generation)的训练严重依赖于特定任务的监督微调(SFT)。尽管这种范式在 Chart-to-code 等单一任务上取得了显著成功 ,但其 “狭隘的训练范围” 从根本上限制了模型的泛化能力,阻碍了通用视觉代码智能(Generalized VIsioN Code Intelligence)的发展 。
千问 APP 上线还是超乎意料。毕竟在 2025 年底,可能也只有阿里有底气尝试,重推一款 AI 应用类产品。界面简洁、克制的不像阿里出品。刚好这两天,我做了件有意思的事:泡在小红书,专门看普通用户在用 AI 做些什么,却发现不少人把 AI 用在各种“不正经”上:
昨天,阿里的千问APP,在应用商店里。终于悄悄上线了。从之前的通义APP的双色渐变,变成了现在的属于千问的单色。功能增加了很多,模型也支持了Qwen全系列最新模型。
这可能是今年最魔幻的自曝事件了。一家估值 10 亿美元的 AI 公司 Fireflies.ai,对外宣称 75% 的财富 500 强都在用他们的服务,结果最近创始人自己爆料称:早期产品的 AI 服务,其实就是两个活人躲在后台疯狂手抄笔记。
今年刚满 20 岁的中山大学 00 后本科毕业生沙天铭,前不久收到了多所全美 Top50 高校的博士 offer。同样在前不久,他和合作者为预防中风研发出一款名为 FAST-CAD 的 AI 工具,能在不依赖医院设备的前提下,在复杂的日常环境中实现中风的准确判断。
你知道有个全球年度词汇叫“脑损伤”(Brain Rot)吗?
憨豆先生坐在《猫和老鼠》的客厅里,汤姆在一旁跌进油漆桶,杰瑞躲在沙发后偷笑。这一幕,不是梦,也不是恶搞,而是AI真实生成的画面。在最新一篇论文中,研究者让从未共存的角色相遇,并解决了「风格错乱」的世纪难题。也许,我们正在迎接一个虚构与真实彻底混合的时代。
和任何人,去任何地方!复旦大学携手阶跃星辰打破 “复制粘贴” 魔咒,重磅推出全新 AI 合照生成模型 WithAnyone —— 只需上传照片,就能一键生成自然、真实、毫无违和感的 AI 合照!
前两周收到了一条推送信息,微软小冰的 X Eva 将于 2025 年 11 月 30 日停止所有运营服务。