一周六连发！昆仑万维将多模态AI卷到了新高度

9146点击 2025-08-18 13:13

鲨疯了！一周连发六款模型。

火力全开的昆仑万维，正在把多模态AI卷到新高度。

8月11日~15日，这家公司天天都有新模型掉落，覆盖的还都是视频生成、世界模型、统一多模态、智能体以及AI音乐创作这些大热门，几乎每一个都是多模态AI应用的核心场景。

用表格总结一下be like：

一周六连发！昆仑万维将多模态AI卷到了新高度

而且这当中的绝大部分模型还被昆仑万维给开！源！了！

u1s1，不怪网友们天天在昆仑万维官方评论区等待惊喜掉落（doge）：

一周六连发！昆仑万维将多模态AI卷到了新高度

而且就在技术周开幕前，昆仑万维还成功入选“中国AI开源16强”，与腾讯、阿里等互联网大厂坐上了同一桌。

所以说，这个技术周的节点也显得格外耐人寻味——

表面上是一场高调的技术“肌肉秀”，但细究之下，背后其实藏着昆仑万维的一盘AI大棋。

一周六连发！昆仑万维将多模态AI卷到了新高度

单点突破，多模态能力全面开花

还是先来康康过去一周都发了啥（按发布顺序展开）。

SkyReels-A3：一张图开口带货so easy！

一上来，昆仑万维就甩出了核心瞄准数字人直播带货的SkyReels-A3模型。（毕竟目前光国内直播市场就已经逼近十万亿量级）

玩法呢主要有三种：

让照片开口说话：一张人像图+一段配音，照片里的人就能按照指定语音开口说话或唱歌；

根据指令生成新视频：一张人像图+一段配音+提示词，照片里的人还能按照要求的状态进行表演；

改台词不换脸：换掉原来的音频，新视频会重新自动对口型、表情和表演，画面依旧连贯。

从官方demo来看，今后恐怕很难分清每天都在看的视频是真人出镜还是数字人了——其手部动作、说话的语气和节奏、口型等都非常自然。

一周六连发！昆仑万维将多模态AI卷到了新高度

除了带货能力强悍，这个模型还有意增加了“镜头语言”——官方预设8种常见运镜参数，包括固定镜头、推镜、拉镜、左摇、右摇、抬升、下降和手持镜头。

这样一来，它也能轻松应对那些对艺术美感要求更高的场景（如音乐MV、电影片段或演讲视频），不像传统数字人只能“固定镜头”，画面略显呆板无趣。

瞅瞅下面这个由AI制作的MV，是不是氛围感一下子拉满了：

一周六连发！昆仑万维将多模态AI卷到了新高度

而且不止明面上效果OK，官方测评显示，在不同的音频驱动场景下，SkyReels-A3在大多数指标上均超越了主流的开源模型OmniAvatar和闭源模型OmniHuman等方法。

尤其在唇形同步（Sync-C和Sync-D）方面，SkyReels-A3明显表现更佳。

一周六连发！昆仑万维将多模态AI卷到了新高度

这里也不得不提到SkyReels-A3背后所采用的核心技术原理：

基于“DiT视频扩散模型+插帧模型进行视频延展+基于强化学习的动作优化+运镜可控”

DiT视频扩散模型就不用多说了，由于用Transformer结构替代了传统的U-Net，它能更好地捕捉长距离依赖关系。

这当中重点看一下所谓的“用插帧模型进行视频延展”：

插帧上一步：为了高效处理视频数据，SkyReels-A3采用3D变分自编码器（3D-VAE）将视频压缩成一个更小、更紧凑的形式，同时保留所有重要的信息；

开始插帧：有了压缩后的视频数据，SkyReels-A3还需要让视频中的人物动作看起来自然，而通过在视频帧之间添加更多的帧，这个目标最终得以顺利实现。

基于上述技术方案，SkyReels-A3相比之前的SkyReels-V1（今年2月发布）、SkyReels-V2（今年4月发布），为用户带来了四个方向上的新体验：

①Text Prompt（文本提示词输入）支持画面变化；

②更自然的动作交互，包括和商品的交互、说话时的手部动作等；

③运镜的运用和控制更高级，让艺术场景如音乐/MV等拥有更高的艺术美感；

④可以生成单分镜分钟级别视频，支持长达60秒的输出，多分镜可以支持无限时长。

一言以蔽之，SkyReels-A3在“让数字人开口说话”这件事上已经把门槛狠狠打下来了——

不需要专业影棚、不需要昂贵设备，只要一段声音和一张照片，人人都能创造无限时长、无限可能的数字内容。

国产开源Genie 3，黑客帝国照进现实

当然了，眼前火的要抓，未来可能火的前沿课题昆仑万维也不放过。

发布第二日，他们就带来了自研世界模型Matrix系列中Matrix-Game交互世界模型的升级版——Matrix-Game 2.0。

早在一周多前，谷歌DeepMind就因推出Genie 3而让世界模型再次备受关注，但遗憾的是Genie 3并没有开源，如今昆仑万维却做到了开源。

据了解，其Matrix-Game-Turbo是国内首家对标Genie 3的模型，而且这一次的2.0版本在实时生成和长序列能力上有了质的飞跃。

像下面这个以第一视角走遍游戏场景的例子，以前大多只能生成十几二十秒（包括7个月前的Genie2），而现在直接分钟级起步，并且还能做到实时前后左右交互。

一周六连发！昆仑万维将多模态AI卷到了新高度

具体而言，相比上一版本，Matrix-Game 2.0拥有三大核心优势：

高帧率实时交互长序列生成：支持前后左右移动和视角转动，用户可指令操控角色，系统以25 FPS（Genie 3为24 FPS）实时生成连续画面，单次交互可生成分钟级长视频，动作流畅，响应精准。

多场景泛化能力：模型适应多种场景，包括城市、野外等空间类型，以及真实、油画等视觉风格。

增强的物理一致性：对物理规则的理解进一步提升，角色在面对台阶、障碍物等复杂地形时，能够展现出符合物理逻辑的运动行为，沉浸感及可控性进一步增加。

而为了实现这些升级，昆仑万维主要从数据和架构两方面对Matrix-Game 2.0进行了优化。

第一，为了应对现有交互式世界模型普遍面临的数据瓶颈。他们为模型构建了基于Unreal Engine和GTA 5的可扩展数据生产管线，生产约1350小时高质量交互式视频数据，提供丰富动作覆盖。

第二，针对实时性不足的痛点，他们在1.3B小模型基础上设计了动作条件控制模块，支持帧级键盘与鼠标交互输入。

第三，面对生成序列较短的挑战，他们采用少步长自回归扩散模型实现实时长序列视频生成，在单个GPU上可达25 FPS的生成速度。

与此同时，昆仑万维也在同一天发布并开源了3D场景生成大模型——Matrix-3D。

作为一个融合全景视频生成与三维重建的统一框架，它从单图像出发，能够生成高质量、轨迹一致的全景视频，并能直接还原可漫游的三维空间。对标李飞飞World Labs的生成效果，还能实现更大范围的探索空间。

p.s.量子位另有一篇文章对昆仑万维Matrix-3D进行了详细介绍~

一周六连发！昆仑万维将多模态AI卷到了新高度

结合以上两种模型，昆仑万维可以说成功打破了世界模型在内容生成与交互之间的壁垒。

这也意味着，他们已经为游戏引擎、元宇宙、具身智能、自动驾驶等多个领域构建起了强有力的技术基座。

用上新框架，生图/编辑统统SOTA

进入第三天，昆仑万维盯上了今年颇火的统一多模态——

正式开源Skywork UniPic 2.0模型，作为面向统一多模态建模的高效训练和推理框架，能够实现一个模型搞定图像理解、生成以及编辑。

过去业界为了实现这一目标，通常信奉“大力出奇迹”那一套，想让模型更强，就加参数、加显卡、加算力。

但昆仑万维用新框架证明，优化训练策略可以替代单纯的模型扩张，从而降低高性能图像生成/编辑模型的训练成本和硬件门槛。

具体来说，通过改进SD3.5-Medium架构以及应用“独门秘笈”（渐进式双任务强化策略），最终使一个仅2B大小的模型在图像生成和编辑性能上超越了BAGEL（7B）和Flux-Kontext（12B），成功“以小博大”。

紧接着，当把这个2B模型与Qwen2.5-VL-7B联合训练之后，所得到的统一多模态模型UniPic2-Metaquery直接刷新了理解、生成、编辑等多项任务的SOTA纪录。

总而言之，Skywork UniPic 2.0的出现代表了统一多模态领域的一种全新训练范式。

一周六连发！昆仑万维将多模态AI卷到了新高度

天工超级智能体核心引擎又又又升级了

至此，昆仑万维前三天的发布可谓样样火热，但这还没完。

今年火到不能再火的Agent，这就接着上桌——

正式发布Skywork Deep Research Agent v2，作为天工超级智能体的核心引擎，它为平台用户产出了大量信息密度极高的优质文档、PPT、表格以及其他交付物。

这次的升级也主要体现在多模态上，具体有三点：

①推出“多模态深度调研”Agent，首次整合多模态检索、理解和生成。

②推出“多模态深度浏览器智能体”，重塑社媒内容分析与数据洞察。

③加强深度信息搜索和复杂任务执行能力，在多个任务测评集上取得SOTA。

先来看一个用“多模态深度调研”Agent搞研究的例子（该功能已全面上线天工平台）。

亮点1：智能体在检索信息的过程中，会自动浏览并分析理解重要的图片（以前依赖于纯文本）。

一周六连发！昆仑万维将多模态AI卷到了新高度

亮点2：在对图片做了收集和理解之后，智能体在生成文档时，会在合适位置插入高质量图片，直接传达信息，降低读者理解难度。

一周六连发！昆仑万维将多模态AI卷到了新高度

亮点3：智能体也可能对图片信息进行整合加工，以流畅的方式变成文字或者新的图表。

一周六连发！昆仑万维将多模态AI卷到了新高度

另一个“多模态深度浏览器智能体”目前仍处于内测和邀测阶段，官方计划不久之后全面开放。

和之前的浏览器相比，它也不再局限于文本，而是能够深入分析社交媒体（尤其是小红书、推特以及Instagram等平台）的图片、视频等内容。

现在，吃瓜和追星的姿态已经大变样了~

吃瓜ing：

结合近期社交媒体上的时间线和热点讨论内容进行分析，为我们生成一个「梳理年轮争议」的网页。

一周六连发！昆仑万维将多模态AI卷到了新高度

追星ing：

帮我们快速整理Instagram上周杰伦的近况，并且为粉丝后援会做一个共享信息的应援网站。

一周六连发！昆仑万维将多模态AI卷到了新高度

从技术角度而言，新版本Skywork Deep Research的成功主要靠以下核心手段：

（1）高质量数据合成及训练

提出端到端深度信息问题合成流程，明确高质量搜索问题的五大标准（多样性、正确性、唯一性、可验证性、挑战性），并通过“种子实体筛选—端到端问题构造—迭代式问题增强”三阶段方法，系统生成高难度、多步推理问题集。

（2）端到端强化学习

基于非对称验证原则构建大规模高质量训练数据，采用GRPO算法与动态课程学习机制，确保训练样本始终处于适宜难度区间；引入生成式密集奖励模型，将终点奖励细化为过程奖励，提升学习效率与鲁棒性。

（3）高效的并行推理

研发并行思考（Parallel Think）机制，在每步推理生成多个候选路径并筛选最优；引入长文本生成式结果验证与锦标赛排序，提升推理准确率与泛化能力；采用熵自适应剪枝，仅在高不确定性节点进行多路径推理，兼顾性能与计算效率。

（4）多智能体演进Agent

构建MCP Manager Agent，实现工具的生成—验证—持久化—复用闭环管理；通过协同多智能体框架，将不同Agent模型能力与MCP工具能力深度融合，并支持动态创建与管理工具，显著增强任务处理能力与环境适应性。

更懂中文歌曲的音乐模型

几个大热方向逐一突破后，最后一天，昆仑万维来了一波强势回归——音乐模型。

正式上线Mureka V7.5模型，使中文歌曲演绎再上新台阶：

中文歌曲音色、演奏技法提升

中文歌曲咬字与情感表现提升

前者通过深入理解中文音乐的多样性和文化特性，模型能更精准地传达中文音乐的艺术神韵和情感；后者通过优化的ASR技术提升了人声的真实性和情感深度，使AI演唱更自然，尤其在中文歌曲的韵律和气息处理上效果显著。

话不多说，直接来看它和国外顶尖音乐生成模型Suno v4.5（Suno最新版）的对比：

一周六连发！昆仑万维将多模态AI卷到了新高度

仅从提示词（摇滚、雨、爱与自由）来听，Mureka V7.5明显更具摇滚味儿，更符合提示词。

此外，更多测评结果表明，不论是音乐性还是文本控制准确性，Mureka V7.5均领先同类音乐模型。

一周六连发！昆仑万维将多模态AI卷到了新高度

同一时间，昆仑万维语音团队还推出了首个基于MoE的角色描述语音合成框架——MoE-TTS。

作为面向开放描述（Out-of-domain Descriptions）场景的全新框架，它能让用户通过自然语言描述（例如“清澈的少年音带磁性尾韵”）精准控制声音特征与风格。

在仅使用开源数据的条件下，对标甚至超越闭源商业产品的角色贴合度表现。

下图显示，在涵盖域内与域外描述的双测试集上，MoE-TTS与主流闭源TTS模型相比，在风格表现力贴合度（SEA）和整体贴合度（OA）等声学控制上精准度领先，这也正是其在复杂描述匹配度上胜出的关键。

一周六连发！昆仑万维将多模态AI卷到了新高度

昆仑万维：持续在AI核心技术领域投入

至此小结一下昆仑万维技术周，不难发现这样几个特征：

①多模态能力全面拉满：从文本到语音/视频/图像等，各项技术都在往多模态方向延伸。

②垂直领域深耕：面对高频应用场景，模型一再快速刷新各领域SOTA。

③开源驱动生态：多款SOTA模型开放权重与代码，推动行业迭代。

结合昆仑万维在AI方面的布局，不得不说如今的成就并非偶然，而是其精心布局与持续投入的必然结果。

那么，这背后究竟是一盘怎样的大棋呢？梳理下来核心在于三方面。

首先是战略定力。

早在ChatGPT卷起这轮AI浪潮的2023年初，昆仑万维就从顶层设计上率先确立了“All in AGI与AIGC”的战略。

这一前瞻性的战略决策，不仅体现了公司对AI未来发展的深刻洞察，也为昆仑万维在AI领域持续深耕奠定了坚实基础。

受此战略指引，过去三年他们在视觉多模态、深度学习、强化学习等核心技术领域持续投入，在AI上倾注了实打实的人力、物力、财力。

这一点可以通过昆仑万维2024以及2025年一季度财报体现：

研发投入节节高：2024全年研发费用为15.4亿元，同比增长59.5%，占总营收比重的27%以上。今年一季度研发费用为4.3亿元，同比增长23%，约占营收的26%。

研发人员在国内AI企业中跻身前列：2024年其研发团队达到1554人，占总人数的73.41%。

如此重押之下，昆仑万维也先后推出了多项重磅产品与平台——包括天工超级智能体（Skywork Super Agents）、AI音乐创作平台Mureka、AI短剧平台SkyReels、AI社交产品Linky等，形成了“AI前沿基础研究——基座模型——AI矩阵产品/应用”的全栈式AI产业链。

当然，这些产品的选择，实际上也揭示了昆仑万维的另一个关键策略：

技术上全面开花，应用上却狠狠瞄准垂直领域。

在WAIC 2025大会上，昆仑万维董事长兼CEO方汉提出了一个与众不同的观点。在行业普遍追逐“超级应用”和通用Agent的热潮中，他认为通用Agent在逻辑上不成立，垂直领域的深度优化才是未来。

绝大多数行业，数据虽多，却缺乏揭示“如何做”的过程记录。因此，通用大模型无法在所有行业都达到理想的智能水平，这为深耕特定行业的垂直Agent留下了巨大的发展空间。

而且从全球大模型调用数据来看，他认为只有那些能够融入用户日常工作流、被高频使用的应用，才能产生巨大的商业价值和用户粘性。

这些都为昆仑万维的AI应用落地指明了方向——垂直领域+高频应用场景。

一周六连发！昆仑万维将多模态AI卷到了新高度

△图源：昆仑万维公众号

当完成从技术→应用落地的关键一环后，昆仑万维最后用开源补齐了整个链条。相比一些同行选择闭源，昆仑万维在多个关键节点坚持开源，持续贡献高质量模型和工具。

在业内，这不仅帮助公司建立起技术话语权，也在吸引更多开发者、合作伙伴加入，从而形成“技术—社区—应用”的正向循环。事实也证明，该公司已经凭借开源成果入选“中国AI开源16强”，生态地位正在稳步提升。

综上所述，能够看到的是，昆仑万维正在加速推进其AI战略，并展现出强大的技术实力和商业潜力。作为国内AI企业第一梯队成员，其后续发展无疑值得资本关注。

可以说，技术周的落幕并非终点，而是昆仑万维AI征程新的起点。

文章来自于微信公众号“量子位”，作者是“一水”。

关键词: AI新闻 , 昆仑万维 , 多模态 , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI音乐

【开源免费】suno-api是一个使用监听技术实现了调用suno功能，并封装好API的AI音乐项目。
项目地址：https://github.com/gcui-art/suno-api

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目，该项目可以帮你实现“线上线下的数字人销售员”，
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址：https://github.com/xszyou/Fay

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

Flux

【部分开源免费】FLUX是由Black Forest Labs开发的一个文生图和图生图的AI绘图项目，该团队为前SD成员构成。该项目是目前效果最好的文生图开源项目，效果堪比midjourney。
项目地址：https://github.com/black-forest-labs/flux
在线使用：https://fluximg.com/zh

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales