一种基于时序运动感知的文生视频方法、装置及电子设备
申请号:CN202510948560
申请日期:2025-07-10
公开号:CN120853083A
公开日期:2025-10-28
类型:发明专利
摘要
本公开提供了一种基于时序运动感知的文生视频方法、装置及电子设备,通过设计多阶段Transformer去噪模块,第一阶段独立处理文本与视频特征,避免早期模态干扰,第二阶段实现深度跨模态融合,确保生成结果在语义表达与视觉动态表现上的高度一致。通过在Transformer模块间引入跳跃连接结构,并结合全连接层调整特征维度,缓解梯度消失与爆炸问题,提升模型在大规模复杂数据集下的训练稳定性与收敛速度。结合时序自注意力机制与位置编码,有效捕捉视频帧间的时间依赖与动态变化,显著增强视频生成的整体连贯性、自然流畅度及复杂动态场景的表现能力。
技术关键词
文本
语义特征
注意力机制
网络
机器可读指令
时序
特征提取模块
电子设备
处理器
数据
代表
编码器
可读存储介质
视频装置
动态场景