腾讯混元开源游戏AI生成新工具!RTX 4090就能制作3A级动态内容

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
腾讯混元开源游戏AI生成新工具!RTX 4090就能制作3A级动态内容
5922点击    2025-08-15 14:16

随手拍的一张图,就能秒变3A级游戏大作?!


刚刚,腾讯全新开源游戏视频生成框架Hunyuan-GameCraft,专为游戏环境设计,让任何人都能轻松搞定游戏制作。


无论是水墨风:


腾讯混元开源游戏AI生成新工具!RTX 4090就能制作3A级动态内容


抑或是古希腊:


腾讯混元开源游戏AI生成新工具!RTX 4090就能制作3A级动态内容


只要你想,统统都能满足。


基于腾讯混元视频生成HunyuanVideo搭建,可以实时生成流畅画面。


操作也很so easy,只需要:单张场景图+文字描述+动作指令=高清动态游戏视频


腾讯混元开源游戏AI生成新工具!RTX 4090就能制作3A级动态内容


所以下面让我们一起Game start!


实机演示


先来康康几个生成案例尝尝鲜:


首先做一个中世纪的乡村风格场景,画面流畅自然,镜头随第一视角动态移动。


腾讯混元开源游戏AI生成新工具!RTX 4090就能制作3A级动态内容


Prompt:A picturesque village scene featuring quaint houses, a windmill, lush greenery, and a serene mountain backdrop under a bright blue sky.


或者试试多动作场景,可以在转换视角的同时完成行走动作。


腾讯混元开源游戏AI生成新工具!RTX 4090就能制作3A级动态内容


Prompt:A sunlit courtyard features white adobe buildings with arched doorways and windows, surrounded by lush greenery and palm trees, creating a serene Mediterranean ambiance.


还能保持历史一致性,移开镜头回来之后,场景不会出现变形情况。


腾讯混元开源游戏AI生成新工具!RTX 4090就能制作3A级动态内容


Prompt:A medieval stone castle stands tall under a dark sky, its glowing windows contrasting with the surrounding snow-covered landscape.


除了第一视角,也可以进行第三人称视角生成。


腾讯混元开源游戏AI生成新工具!RTX 4090就能制作3A级动态内容


Prompt:A dark, sleek car is driving down a winding road at night, its headlights illuminating the path ahead.


除了视角切换、场景转换这类基础生成能力,例如动态天气(云层移动、雪花飘落)以及NPC互动等复杂内容,也能被Hunyuan-GameCraft一一实现。


那么具体是怎么做到的呢?


个人生产3A级动态内容


要知道,传统的游戏视频生成工具长期面临三大瓶颈:


  • 动作僵硬、场景静态


角色移动机械单一,只能够简单的平移或转身,且二者不能同时完成,整个运动范围也都局限在非常小的区域。


场景依赖预渲染,一旦完成静态3D场景构建,再对其进行改动,后续场景将失去动态能力。


  • 长期一致性差


在切换视角后,原来的场景会改变甚至消失,历史帧信息保留不足,缺乏记忆性。


  • 生成成本高


由于使用人工建模完成,需要专业的3D人工建模团队以及高端显卡支持,成本昂贵,不利于普通消费者创作。


腾讯混元开源游戏AI生成新工具!RTX 4090就能制作3A级动态内容


而Hunyuan-GameCraft凭借技术创新逐个击破,三大核心优势全覆盖:


1.自由流畅:基于统一连续动作空间设计,支持高精度控制(如角度、速度),也能完成边跑动边转换视角的复杂操作,动态内容生成(例如NPC互动、天气变化、水流运动等)也不在话下,画面相当流畅自然。


2.记忆增强:借助混合历史条件建模,系统可以精准记忆历史帧,确保长视频内容一致性。


3.成本骤降:由于对推理步数进行压缩,且实现量化13B模型,该架构仅需消费级显卡RTX 4090即可运行,制作成本得以降低。另外相比现有的游戏模型闭源方案,其泛化能力更强。


Hunyuan-GameCraft的低门槛和开放性,让它在各个领域都能广泛适用,无论你是想游戏开发、视频创作还是3D设计,自己一个人就能包圆整个3A级动态内容制作过程,而无需专业建模和渲染知识。


从离散用户动作到连贯游戏视频


Hunyuan-GameCraft在架构搭建过程中,精选上百款3A级游戏,如《刺客信条》、《荒野大镖客:救赎》、《赛博朋克 2077》,作为游戏场景数据来源。


腾讯混元开源游戏AI生成新工具!RTX 4090就能制作3A级动态内容


另外从已有的3D资源中渲染了约3000个高质量运动序列,系统重新采样并构建合成数据,以弥补真实世界样本的不足。


然后一方面对起始结束向量进行分层采样,另一方面进行时间反转增强,结合渲染数据微调,综合提升控制信号的泛化能力和训练稳定性。


腾讯混元开源游戏AI生成新工具!RTX 4090就能制作3A级动态内容


整体模型以HunyuanVideo为基础,通过四个关键技术模块实现对用户交互动作的精准响应和长序列视频生成:


  • 交互信号统一与编码


模型将键盘(如W/A/S/D控制移动)和鼠标(如视角旋转)等操作,通过6自由度相机参数(位置、方向、视野)量化为动作信号,再经过多层感知器(MLP)编码,映射到共享的相机表示空间。


  • 混合历史条件建模


选取最近的关键帧作为条件输入,保留场景细节(如物体位置、环境状态),同时通过自回归方式传递前序生成的隐向量,捕捉时间动态(如运动轨迹、速度变化)


  • 模型蒸馏与效率优化


采用知识蒸馏技术,以大模型(教师模型)的输出分布为监督,训练轻量级模型(学生模型),在减少参数量和计算量的同时,保持长时序一致性和生成质量。


  • 扩散过程中的动作控制


将编码后的交互信号与文本特征、历史条件特征融合,通过交叉注意力机制注入每一时间步,确保生成的视频帧严格响应操作指令。


然后在大规模真实游戏数据集上预训练,再在合成数据集上微调,同时通过分布平衡策略优化数据分布。


将模型与当前视频生成领域的主流模型进行多维度性能对比,实验证明Hunyuan-GameCraft 的光流一致性得分比次优模型高18.3%,动作响应延迟低至87ms,PSNR/SSIM则在复杂场景中领先5%-12%。


主观评估中,其真实感和可控性评分分别达到4.2/54.1/5,显著高于其他模型(最高3.5/5),“愿意持续交互” 的比例达78%,是对比模型的1.5-2倍。


腾讯混元开源游戏AI生成新工具!RTX 4090就能制作3A级动态内容


细粒度控制任务中,能准确响应92%的离散动作输入(如连续按 “左方向键” 实现平滑视角左转),而基线模型平均准确率仅65%。


腾讯混元开源游戏AI生成新工具!RTX 4090就能制作3A级动态内容


长时序生成中,10分钟视频的时空一致性误差(物体位置偏移、场景突变)比对比模型低60%以上。


腾讯混元开源游戏AI生成新工具!RTX 4090就能制作3A级动态内容


复杂动态场景 (如战斗爆炸、快速追逐)生成中,视觉细节完整度和动作逻辑连贯性评分领先30%


项目官网:https://hunyuan-gamecraft.github.io/


代码:https://github.com/Tencent-Hunyuan/Hunyuan-GameCraft-1.0


技术报告:https://arxiv.org/abs/2506.17201


Hugging Face:https://huggingface.co/tencent/Hunyuan-GameCraft-1.0


文章来自于微信公众号“量子位”,作者是“鹭羽”。


AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

2
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0