一周六连发!昆仑万维将多模态AI卷到了新高度

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一周六连发!昆仑万维将多模态AI卷到了新高度
5785点击    2025-08-18 13:13

鲨疯了!一周连发六款模型


火力全开的昆仑万维,正在把多模态AI卷到新高度。


8月11日~15日,这家公司天天都有新模型掉落,覆盖的还都是视频生成、世界模型、统一多模态、智能体以及AI音乐创作这些大热门,几乎每一个都是多模态AI应用的核心场景


用表格总结一下be like:


一周六连发!昆仑万维将多模态AI卷到了新高度


而且这当中的绝大部分模型还被昆仑万维给开!源!了!


u1s1,不怪网友们天天在昆仑万维官方评论区等待惊喜掉落(doge):


一周六连发!昆仑万维将多模态AI卷到了新高度


而且就在技术周开幕前,昆仑万维还成功入选“中国AI开源16强”,与腾讯、阿里等互联网大厂坐上了同一桌。


所以说,这个技术周的节点也显得格外耐人寻味——


表面上是一场高调的技术“肌肉秀”,但细究之下,背后其实藏着昆仑万维的一盘AI大棋。


一周六连发!昆仑万维将多模态AI卷到了新高度


单点突破,多模态能力全面开花


还是先来康康过去一周都发了啥(按发布顺序展开)


SkyReels-A3:一张图开口带货so easy!


一上来,昆仑万维就甩出了核心瞄准数字人直播带货的SkyReels-A3模型。(毕竟目前光国内直播市场就已经逼近十万亿量级)


玩法呢主要有三种:


  • 让照片开口说话:一张人像图+一段配音,照片里的人就能按照指定语音开口说话或唱歌;


  • 根据指令生成新视频:一张人像图+一段配音+提示词,照片里的人还能按照要求的状态进行表演;


  • 改台词不换脸:换掉原来的音频,新视频会重新自动对口型、表情和表演,画面依旧连贯。


从官方demo来看,今后恐怕很难分清每天都在看的视频是真人出镜还是数字人了——其手部动作、说话的语气和节奏、口型等都非常自然。


一周六连发!昆仑万维将多模态AI卷到了新高度


除了带货能力强悍,这个模型还有意增加了“镜头语言”——官方预设8种常见运镜参数,包括固定镜头、推镜、拉镜、左摇、右摇、抬升、下降和手持镜头。


这样一来,它也能轻松应对那些对艺术美感要求更高的场景(如音乐MV、电影片段或演讲视频),不像传统数字人只能“固定镜头”,画面略显呆板无趣。


瞅瞅下面这个由AI制作的MV,是不是氛围感一下子拉满了:


一周六连发!昆仑万维将多模态AI卷到了新高度


而且不止明面上效果OK,官方测评显示,在不同的音频驱动场景下,SkyReels-A3在大多数指标上均超越了主流的开源模型OmniAvatar和闭源模型OmniHuman等方法。


尤其在唇形同步(Sync-C和Sync-D)方面,SkyReels-A3明显表现更佳。


一周六连发!昆仑万维将多模态AI卷到了新高度


这里也不得不提到SkyReels-A3背后所采用的核心技术原理


基于“DiT视频扩散模型+插帧模型进行视频延展+基于强化学习的动作优化+运镜可控”


DiT视频扩散模型就不用多说了,由于用Transformer结构替代了传统的U-Net,它能更好地捕捉长距离依赖关系。


这当中重点看一下所谓的“用插帧模型进行视频延展”


  • 插帧上一步:为了高效处理视频数据,SkyReels-A3采用3D变分自编码器(3D-VAE)将视频压缩成一个更小、更紧凑的形式,同时保留所有重要的信息;


  • 开始插帧:有了压缩后的视频数据,SkyReels-A3还需要让视频中的人物动作看起来自然,而通过在视频帧之间添加更多的帧,这个目标最终得以顺利实现。


基于上述技术方案,SkyReels-A3相比之前的SkyReels-V1(今年2月发布)、SkyReels-V2(今年4月发布),为用户带来了四个方向上的新体验:


①Text Prompt(文本提示词输入)支持画面变化;


②更自然的动作交互,包括和商品的交互、说话时的手部动作等;


③运镜的运用和控制更高级,让艺术场景如音乐/MV等拥有更高的艺术美感;


④可以生成单分镜分钟级别视频,支持长达60秒的输出,多分镜可以支持无限时长。


一言以蔽之,SkyReels-A3在“让数字人开口说话”这件事上已经把门槛狠狠打下来了——


不需要专业影棚、不需要昂贵设备,只要一段声音和一张照片,人人都能创造无限时长、无限可能的数字内容。


国产开源Genie 3,黑客帝国照进现实


当然了,眼前火的要抓,未来可能火的前沿课题昆仑万维也不放过。


发布第二日,他们就带来了自研世界模型Matrix系列中Matrix-Game交互世界模型的升级版——Matrix-Game 2.0


早在一周多前,谷歌DeepMind就因推出Genie 3而让世界模型再次备受关注,但遗憾的是Genie 3并没有开源,如今昆仑万维却做到了开源。


据了解,其Matrix-Game-Turbo是国内首家对标Genie 3的模型,而且这一次的2.0版本在实时生成长序列能力上有了质的飞跃。


像下面这个以第一视角走遍游戏场景的例子,以前大多只能生成十几二十秒(包括7个月前的Genie2),而现在直接分钟级起步,并且还能做到实时前后左右交互。


一周六连发!昆仑万维将多模态AI卷到了新高度


具体而言,相比上一版本,Matrix-Game 2.0拥有三大核心优势:


  • 高帧率实时交互长序列生成:支持前后左右移动和视角转动,用户可指令操控角色,系统以25 FPS(Genie 3为24 FPS)实时生成连续画面,单次交互可生成分钟级长视频,动作流畅,响应精准。


  • 多场景泛化能力:模型适应多种场景,包括城市、野外等空间类型,以及真实、油画等视觉风格。


  • 增强的物理一致性:对物理规则的理解进一步提升,角色在面对台阶、障碍物等复杂地形时,能够展现出符合物理逻辑的运动行为,沉浸感及可控性进一步增加。


而为了实现这些升级,昆仑万维主要从数据架构两方面对Matrix-Game 2.0进行了优化。


第一,为了应对现有交互式世界模型普遍面临的数据瓶颈。他们为模型构建了基于Unreal EngineGTA 5的可扩展数据生产管线,生产约1350小时高质量交互式视频数据,提供丰富动作覆盖。


第二,针对实时性不足的痛点,他们在1.3B小模型基础上设计了动作条件控制模块,支持帧级键盘与鼠标交互输入。


第三,面对生成序列较短的挑战,他们采用少步长自回归扩散模型实现实时长序列视频生成,在单个GPU上可达25 FPS的生成速度。


与此同时,昆仑万维也在同一天发布并开源了3D场景生成大模型——Matrix-3D


作为一个融合全景视频生成与三维重建的统一框架,它从单图像出发,能够生成高质量、轨迹一致的全景视频,并能直接还原可漫游的三维空间。对标李飞飞World Labs的生成效果,还能实现更大范围的探索空间。


p.s.量子位另有一篇文章对昆仑万维Matrix-3D进行了详细介绍~


一周六连发!昆仑万维将多模态AI卷到了新高度


结合以上两种模型,昆仑万维可以说成功打破了世界模型在内容生成交互之间的壁垒。


这也意味着,他们已经为游戏引擎、元宇宙、具身智能、自动驾驶等多个领域构建起了强有力的技术基座。


用上新框架,生图/编辑统统SOTA


进入第三天,昆仑万维盯上了今年颇火的统一多模态——


正式开源Skywork UniPic 2.0模型,作为面向统一多模态建模的高效训练和推理框架,能够实现一个模型搞定图像理解、生成以及编辑


过去业界为了实现这一目标,通常信奉“大力出奇迹”那一套,想让模型更强,就加参数、加显卡、加算力。


但昆仑万维用新框架证明,优化训练策略可以替代单纯的模型扩张,从而降低高性能图像生成/编辑模型的训练成本和硬件门槛。


具体来说,通过改进SD3.5-Medium架构以及应用“独门秘笈”(渐进式双任务强化策略),最终使一个仅2B大小的模型在图像生成和编辑性能上超越了BAGEL(7B)和Flux-Kontext(12B),成功“以小博大”。


紧接着,当把这个2B模型与Qwen2.5-VL-7B联合训练之后,所得到的统一多模态模型UniPic2-Metaquery直接刷新了理解、生成、编辑等多项任务的SOTA纪录。


总而言之,Skywork UniPic 2.0的出现代表了统一多模态领域的一种全新训练范式。


一周六连发!昆仑万维将多模态AI卷到了新高度


天工超级智能体核心引擎又又又升级了


至此,昆仑万维前三天的发布可谓样样火热,但这还没完。


今年火到不能再火的Agent,这就接着上桌——


正式发布Skywork Deep Research Agent v2,作为天工超级智能体的核心引擎,它为平台用户产出了大量信息密度极高的优质文档、PPT、表格以及其他交付物。


这次的升级也主要体现在多模态上,具体有三点:


①推出“多模态深度调研”Agent,首次整合多模态检索、理解和生成。


②推出“多模态深度浏览器智能体”,重塑社媒内容分析与数据洞察。


③加强深度信息搜索和复杂任务执行能力,在多个任务测评集上取得SOTA。


先来看一个用“多模态深度调研”Agent搞研究的例子(该功能已全面上线天工平台)


亮点1:智能体在检索信息的过程中,会自动浏览并分析理解重要的图片(以前依赖于纯文本)。


一周六连发!昆仑万维将多模态AI卷到了新高度


亮点2:在对图片做了收集和理解之后,智能体在生成文档时,会在合适位置插入高质量图片,直接传达信息,降低读者理解难度。


一周六连发!昆仑万维将多模态AI卷到了新高度


亮点3:智能体也可能对图片信息进行整合加工,以流畅的方式变成文字或者新的图表。


一周六连发!昆仑万维将多模态AI卷到了新高度


另一个“多模态深度浏览器智能体”目前仍处于内测和邀测阶段,官方计划不久之后全面开放。


和之前的浏览器相比,它也不再局限于文本,而是能够深入分析社交媒体(尤其是小红书、推特以及Instagram等平台)的图片、视频等内容。


现在,吃瓜和追星的姿态已经大变样了~


吃瓜ing:


结合近期社交媒体上的时间线和热点讨论内容进行分析,为我们生成一个「梳理年轮争议」的网页。


一周六连发!昆仑万维将多模态AI卷到了新高度


追星ing:


帮我们快速整理Instagram上周杰伦的近况,并且为粉丝后援会做一个共享信息的应援网站。


一周六连发!昆仑万维将多模态AI卷到了新高度


从技术角度而言,新版本Skywork Deep Research的成功主要靠以下核心手段:


(1)高质量数据合成及训练


提出端到端深度信息问题合成流程,明确高质量搜索问题的五大标准(多样性、正确性、唯一性、可验证性、挑战性),并通过“种子实体筛选—端到端问题构造—迭代式问题增强”三阶段方法,系统生成高难度、多步推理问题集。


(2)端到端强化学习


基于非对称验证原则构建大规模高质量训练数据,采用GRPO算法与动态课程学习机制,确保训练样本始终处于适宜难度区间;引入生成式密集奖励模型,将终点奖励细化为过程奖励,提升学习效率与鲁棒性。


(3)高效的并行推理


研发并行思考(Parallel Think)机制,在每步推理生成多个候选路径并筛选最优;引入长文本生成式结果验证与锦标赛排序,提升推理准确率与泛化能力;采用熵自适应剪枝,仅在高不确定性节点进行多路径推理,兼顾性能与计算效率。


(4)多智能体演进Agent


构建MCP Manager Agent,实现工具的生成—验证—持久化—复用闭环管理;通过协同多智能体框架,将不同Agent模型能力与MCP工具能力深度融合,并支持动态创建与管理工具,显著增强任务处理能力与环境适应性。


更懂中文歌曲的音乐模型


几个大热方向逐一突破后,最后一天,昆仑万维来了一波强势回归——音乐模型


正式上线Mureka V7.5模型,使中文歌曲演绎再上新台阶:


  • 中文歌曲音色、演奏技法提升


  • 中文歌曲咬字与情感表现提升


前者通过深入理解中文音乐的多样性和文化特性,模型能更精准地传达中文音乐的艺术神韵和情感;后者通过优化的ASR技术提升了人声的真实性和情感深度,使AI演唱更自然,尤其在中文歌曲的韵律和气息处理上效果显著。


话不多说,直接来看它和国外顶尖音乐生成模型Suno v4.5(Suno最新版)的对比:


一周六连发!昆仑万维将多模态AI卷到了新高度


仅从提示词(摇滚、雨、爱与自由)来听,Mureka V7.5明显更具摇滚味儿,更符合提示词。


此外,更多测评结果表明,不论是音乐性还是文本控制准确性,Mureka V7.5均领先同类音乐模型。


一周六连发!昆仑万维将多模态AI卷到了新高度


同一时间,昆仑万维语音团队还推出了首个基于MoE的角色描述语音合成框架——MoE-TTS。


作为面向开放描述(Out-of-domain Descriptions)场景的全新框架,它能让用户通过自然语言描述(例如“清澈的少年音带磁性尾韵”)精准控制声音特征与风格。


在仅使用开源数据的条件下,对标甚至超越闭源商业产品的角色贴合度表现。


下图显示,在涵盖域内与域外描述的双测试集上,MoE-TTS与主流闭源TTS模型相比,在风格表现力贴合度(SEA)和整体贴合度(OA)等声学控制上精准度领先,这也正是其在复杂描述匹配度上胜出的关键。


一周六连发!昆仑万维将多模态AI卷到了新高度


昆仑万维:持续在AI核心技术领域投入


至此小结一下昆仑万维技术周,不难发现这样几个特征:


多模态能力全面拉满:从文本到语音/视频/图像等,各项技术都在往多模态方向延伸。


垂直领域深耕:面对高频应用场景,模型一再快速刷新各领域SOTA。


开源驱动生态:多款SOTA模型开放权重与代码,推动行业迭代。


结合昆仑万维在AI方面的布局,不得不说如今的成就并非偶然,而是其精心布局与持续投入的必然结果。


那么,这背后究竟是一盘怎样的大棋呢?梳理下来核心在于三方面。


首先是战略定力。


早在ChatGPT卷起这轮AI浪潮的2023年初,昆仑万维就从顶层设计上率先确立了“All in AGI与AIGC”的战略。


这一前瞻性的战略决策,不仅体现了公司对AI未来发展的深刻洞察,也为昆仑万维在AI领域持续深耕奠定了坚实基础。


受此战略指引,过去三年他们在视觉多模态、深度学习、强化学习等核心技术领域持续投入,在AI上倾注了实打实的人力、物力、财力。


这一点可以通过昆仑万维2024以及2025年一季度财报体现:


  • 研发投入节节高:2024全年研发费用为15.4亿元,同比增长59.5%,占总营收比重的27%以上。今年一季度研发费用为4.3亿元,同比增长23%,约占营收的26%。


  • 研发人员在国内AI企业中跻身前列:2024年其研发团队达到1554人,占总人数的73.41%。


如此重押之下,昆仑万维也先后推出了多项重磅产品与平台——包括天工超级智能体(Skywork Super Agents)、AI音乐创作平台Mureka、AI短剧平台SkyReels、AI社交产品Linky等,形成了“AI前沿基础研究——基座模型——AI矩阵产品/应用”的全栈式AI产业链


当然,这些产品的选择,实际上也揭示了昆仑万维的另一个关键策略:


技术上全面开花,应用上却狠狠瞄准垂直领域。


在WAIC 2025大会上,昆仑万维董事长兼CEO方汉提出了一个与众不同的观点。在行业普遍追逐“超级应用”和通用Agent的热潮中,他认为通用Agent在逻辑上不成立,垂直领域的深度优化才是未来


绝大多数行业,数据虽多,却缺乏揭示“如何做”的过程记录。因此,通用大模型无法在所有行业都达到理想的智能水平,这为深耕特定行业的垂直Agent留下了巨大的发展空间。


而且从全球大模型调用数据来看,他认为只有那些能够融入用户日常工作流、被高频使用的应用,才能产生巨大的商业价值和用户粘性。


这些都为昆仑万维的AI应用落地指明了方向——垂直领域+高频应用场景


一周六连发!昆仑万维将多模态AI卷到了新高度


图源:昆仑万维公众号


当完成从技术→应用落地的关键一环后,昆仑万维最后用开源补齐了整个链条。相比一些同行选择闭源,昆仑万维在多个关键节点坚持开源,持续贡献高质量模型和工具。


在业内,这不仅帮助公司建立起技术话语权,也在吸引更多开发者、合作伙伴加入,从而形成“技术—社区—应用”的正向循环。事实也证明,该公司已经凭借开源成果入选“中国AI开源16强”,生态地位正在稳步提升。


综上所述,能够看到的是,昆仑万维正在加速推进其AI战略,并展现出强大的技术实力和商业潜力。作为国内AI企业第一梯队成员,其后续发展无疑值得资本关注。


可以说,技术周的落幕并非终点,而是昆仑万维AI征程新的起点。


文章来自于微信公众号“量子位”,作者是“一水”。


AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI音乐

【开源免费】suno-api是一个使用监听技术实现了调用suno功能,并封装好API的AI音乐项目。

项目地址:https://github.com/gcui-art/suno-api

3
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

4
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

5
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

6
Flux

【部分开源免费】FLUX是由Black Forest Labs开发的一个文生图和图生图的AI绘图项目,该团队为前SD成员构成。该项目是目前效果最好的文生图开源项目,效果堪比midjourney。

项目地址:https://github.com/black-forest-labs/flux

在线使用:https://fluximg.com/zh

7
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

8
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales