一种基于跨模态协同学习的视频生成方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于跨模态协同学习的视频生成方法及系统
申请号:CN202511324520
申请日期:2025-09-17
公开号:CN120835216A
公开日期:2025-10-24
类型:发明专利
摘要
本发明公开了一种基于跨模态协同学习的视频生成方法及系统,属于视频生成与多模态数据处理领域。接收多模态输入并提取多模态特征;通过改进的条件扩散模型处理多模态特征,生成视频序列;改进的条件扩散模型的每一个DiT块中包括并列设置的相机感知注意力模块和解耦交叉注意力模块,两个注意力模块均输入由图像序列潜变量处理后得到的视频潜特征,输出加权后代替原始条件扩散模型中的交叉注意力模块的输出;采用低秩自适应技术对改进的条件扩散模型进行轻量化微调,并在训练过程中引入多阶段课程学习策略。实验结果表明,本发明在多任务视频生成中表现出优异性能,能够实现高质量、精细化的场景主体和摄像机运动联合控制。
技术关键词
视频生成方法 注意力 相机 跨模态 多模态特征 全局视觉特征 运动轨迹信息 生成视频序列 模块 多阶段 语义特征 图像解码器 图像编码器 矩阵 文本 变量
系统为您推荐了相关专利信息
智能化识别方法 生成对抗网络 样本 二维卷积神经网络 分辨率遥感影像
协同定位方法 粒子 语义特征 矩阵 时间延迟补偿
编码特征 标记 注意力 样本 序列特征
电信号 卷积神经网络模型 生成对抗网络模型 网络结构优化 睡眠障碍呼吸
图像编码器 语义分割方法 注意力 图像块 文本编码器