摘要
本发明公开了一种掩码恢复表观的高分辨率视频重配音生成方法,包括以下步骤:(1)输入数据与预处理;(2)采用MAE编码器进行掩码重建,推理出面部的结构特征,通过多尺度解码器生成不同分辨率的特征图,结合gating机制使特征与不同输入尺寸的参考帧对齐,捕捉嘴部和眼部等关键区域的静态结构特征;(3)通过参考帧提取纹理特征与生成的结构特征进行融合;同时将驱动音频特征通过跨注意力机制与融合特征结合,生成动态对齐后的纹理特征;采用AdaAT算法实现动态特征的仿射变换,确保嘴部动态与音频同步;(4)生成重配音视频;本发明显著提升生成的稳定性和姿势适应性,实现精确的嘴部与音频同步。