摘要
本发明公开了一种特定人物的视频生成方法、装置、设备及介质。该方法包括:根据用户输入的待生成视频的视频提示词以及目标人物的人脸图像,分别获取提示词文本生成特征以及抽象人脸面部特征;通过多模态变压器扩散生成模型,对提示词文本生成特征以及抽象人脸面部特征进行多轮处理,获取目标人物相关图像;其中,多模态变压器扩散生成模型中通过跨注意力机制实现特征融合;根据目标人物相关图像,生成特定人物视频。采用上述技术方案,能够实现仅需单张人物图像,即可生成特定人物视频,算力消耗低,耗时较短,能够高效、便捷的获取特定人物的视频,提高用户的使用体验。