全新稀疏注意力优化!腾讯最新超轻量视频生成模型HunyuanVideo 1.5核心技术解密

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
全新稀疏注意力优化!腾讯最新超轻量视频生成模型HunyuanVideo 1.5核心技术解密
8173点击    2025-11-27 10:10

腾讯混元大模型团队正式发布并开源HunyuanVideo 1.5。


这是一款基于Diffusion Transformer(DiT)架构、参数为8.3B的轻量级视频生成模型,支持生成5-10秒的高清视频。


目前,腾讯元宝最新版已上线该模型能力,用户可以在元宝中通过文字和图片生成视频。


全新稀疏注意力优化!腾讯最新超轻量视频生成模型HunyuanVideo 1.5核心技术解密


HunyuanVideo 1.5模型具备全面且强大的核心能力,支持中英文输入的文生视频与图生视频。


全新稀疏注意力优化!腾讯最新超轻量视频生成模型HunyuanVideo 1.5核心技术解密


其图生视频能力展现出图像与视频的高度一致性。模型还具备强指令理解与遵循能力,能够精准地实现多样化场景,包括运镜、流畅运动、写实人物和人物情绪表情等多种指令;同时支持写实、动画、积木等多种风格,并可在视频中生成中英文文字。


在画质方面,模型可原生生成5–10秒时长的480p720p高清视频,并可通过超分模型提升至1080p电影级画质


HunyuanVideo 1.5定位为“开源小钢炮”,对比业界动辄20-30B体量的主流模型,HunyuanVideo 1.5以极轻量的8.3B尺寸实现开源最佳的效果;显著降低了使用门槛,甚至可在14G显存的消费级显卡上流畅运行,真正让每一位开发者和创作者都能“玩起来”。


全新稀疏注意力优化!腾讯最新超轻量视频生成模型HunyuanVideo 1.5核心技术解密


全新稀疏注意力优化!腾讯最新超轻量视频生成模型HunyuanVideo 1.5核心技术解密 HunyuanVideo 1.5 GSB(Good Same Bad)评测结果


HunyuanVideo1.5通过多层次的技术创新,实现了生成效果、性能与尺寸上的平衡。


本文将分享背后的核心技术解决方案。


核心技术解决方案


本次HunyuanVideo1.5通过多层次的技术创新,实现了生成效果、性能与尺寸上的平衡。团队使用的是两阶段的框架。


第一阶段采用了一个8.3B参数、多任务学习的(DiT)模型。第二阶段则通过视频超分模型进一步提升生成视频的视觉质量。


1)轻量化高性能架构:通过8.3B参数的DiT架构与3D因果VAE编解码器,实现空间16倍、时间4倍的高效压缩,以最小参数量激发模型潜力,达到业界领先的生成效果。多任务联合训练,架构同时支持文生视频和图生视频任务。


全新稀疏注意力优化!腾讯最新超轻量视频生成模型HunyuanVideo 1.5核心技术解密


2)稀疏注意力优化:创新提出SSTA(Selective and Sliding Tile Attention)机制,显著降低视频长序列生成的计算开销,在10s视频生成效率上,较FlashAttention3提速1.87x。


标准自注意力机制的计算复杂度随序列长度呈二次方增长,这给基于Transformer的视频生成模型带来了显著的效率瓶颈。


为协同结合静态局部窗口先验与动态全局自适应选择的优势,在HunyuanVideo1.5中,提出了一种新颖的稀疏注意力方法SSTA。


SSTA包含四个关键步骤:


1)三维的时空块划分 ;2)基于块重要性的选择性掩码生成;3)STA局部窗口掩码生成;4)融合两种掩码,并基于Thunderkittens开发的硬件友好的高效稀疏块注意力进行计算。


全新稀疏注意力优化!腾讯最新超轻量视频生成模型HunyuanVideo 1.5核心技术解密


3)增强型多模态理解:采用多模态大模型作为文本编码器,精准理解中英文双语输入;额外引入byT5对文本OCR进行独立编码,增强视频文本元素的生成准确性。


4)全链路训练优化:采用多阶段渐进式训练策略,覆盖预训练至后训练全流程,结合Muon优化器加速模型收敛,全面优化运动连贯性、美学质量及人类偏好对齐,达成专业级内容生成效果。


5)视频超分增强系统:提供高效的视频超分模型,将生成结果上采样至1080p. 超分模型能够有效增强低分辨率生成视频的画面细节和质感, 同时修复运动结构畸变。


全新稀疏注意力优化!腾讯最新超轻量视频生成模型HunyuanVideo 1.5核心技术解密


超分模型采用8.3B主模型作为骨干网络. 为了提升级联生成的效率, 团队专门设计并训练了一个潜空间特征上采样模块, 它能将上一阶段生成的低分辨率视频在潜空间内高效上采样,实现与高分辨率特征的空间对齐。


此外, 团队采用基于MeanFlow自研的蒸馏算法对模型进行步数蒸馏,进一步缩短了模型的推理时间。


6)强化学习提升质量:团队为图生视频和文生视频任务分别定制了不同的RLHF策略。这两项任务的核心目标均在于修正伪影并提升运动质量。


a. 图生视频:在线强化学习


针对 I2V 任务,团队在后训练阶段应用在线强化学习,旨在修正结构和运动方面的伪影。具体流程如下:


  • 提示词构建: 团队首先基于高美感图像构建了一个包含100多个类别的精选提示词集。候选提示词首先由视觉语言模型 (VLM) 生成,随后经过人工校验,以确保严格的图文一致性。


  • 奖励模型 (Reward Model): 团队微调了一个基于VLM的奖励模型,从以下四个关键维度对视频进行评估:文本对齐度 (Text Alignment)、图像对齐度 (Image Alignment)、视觉质量 (Visual Quality)、运动动态 (Motion Dynamics)


  • 训练策略: 在RL训练过程中,团队通过改变随机种子和CFG比例采用了混合采样策略。同时,引入了一种混合ODE-SDE求解器 (MixGRPO),以在保持采样质量的同时丰富探索空间。


  • 效果: 该RLHF过程在所有评估指标上均取得了持续提升,特别是在运动真实感方面收益显著。


b. 文生视频:混合“离线-在线”策略


在此基础上,针对T2V任务中运动伪影更严重的问题,团队设计了更全面的混合“离线-在线”对齐策略。由于现有的奖励模型难以有效区分细粒度的运动质量,团队采取了分阶段优化的方案:


  • 第一阶段:离线优化 (DPO)


提示词构建: 团队同样整理了一个均衡的万量级 (10K) 提示词集(来源于大语言模型生成的提示词及训练视频的描述),覆盖了运动、场景、主体等多个维度。


样本生成与标注: 利用经过筛选后的高质量SFT checkpoints,团队为每个提示词生成N个候选视频,以构建非重复的样本对。随后采用 GSB 标准,进行人工标注,重点评估语义保真度、运动质量和美学表现。


训练: 基于这些高质量的成对数据应用DPO直接对齐人类偏好,显著减少了运动伪影,并为在线RL确立了更优的策略模型起点。


  • 第二阶段:在线优化 (Online RL)


团队采用与 I2V任务完全相同的在线RL框架进行后续优化,来进一步提升模型的视觉质量和语义文本对齐能力。


CT:


全新稀疏注意力优化!腾讯最新超轻量视频生成模型HunyuanVideo 1.5核心技术解密


SFT:


全新稀疏注意力优化!腾讯最新超轻量视频生成模型HunyuanVideo 1.5核心技术解密

RLHF:


全新稀疏注意力优化!腾讯最新超轻量视频生成模型HunyuanVideo 1.5核心技术解密


7)推理加速工程:集成模型蒸馏、Cache优化等关键技术,大幅提升推理效率,显著降低推理资源消耗。


更多案例


文生视频方面:


一段充满电影感的东京夜景,展现了熙熙攘攘的十字路口。镜头以高角度广角拍摄,展现了人群和霓虹灯,随后迅速拉近,聚焦于一位年轻的女性。她静立于模糊的喧嚣之中,若有所思。画面以忧郁的蓝红色灯光、湿漉漉的沥青路面倒映的影像以及浅景深为特色。


全新稀疏注意力优化!腾讯最新超轻量视频生成模型HunyuanVideo 1.5核心技术解密


赛博朋克风格的夜晚街角,一个巨大的招牌上,”Hunyuan Video 1.5” 的霓虹灯管轮廓已经安装好。镜头推进,霓虹灯从“H”开始,伴随着‘滋滋’的电流声,每个字母依次亮起粉紫色的光芒,直到全部点亮,照亮了潮湿的街道。赛博朋克,城市美学


全新稀疏注意力优化!腾讯最新超轻量视频生成模型HunyuanVideo 1.5核心技术解密


图生视频方面:


画面中的人跳了起来,四肢张开


全新稀疏注意力优化!腾讯最新超轻量视频生成模型HunyuanVideo 1.5核心技术解密


Have the camera slowly push into a close up as the puppy pulls a lever.


全新稀疏注意力优化!腾讯最新超轻量视频生成模型HunyuanVideo 1.5核心技术解密


看完案例,感兴趣的朋友可以戳下方链接查看更多细节~


项目主页:https://hunyuan.tencent.com/video/zh

Github:https://github.com/Tencent-Hunyuan/HunyuanVideo-1.5

Hugging Face:https://huggingface.co/tencent/HunyuanVideo-1.5

技术报告:https://arxiv.org/abs/2511.18870


文章来自于“量子位”,作者 “混元团队”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0