摘要
本申请实施例提供了一种视频剪辑方法,包括:获取初始视频,并对所述初始视频进行预处理,得到多个视频片段;将所述多个视频片段输入到预先训练好的多种模态的模型,以通过所述多种模态的模型获取多个内容文本,所述多个内容文本与所述多个视频片段一一对应;基于所述多个内容文本和预先训练好的语言模型,获取剪辑序列,所述剪辑序列包括多个目标内容文本;根据所述剪辑序列,获取多个目标视频片段并进行剪辑,得到目标视频;所述多个目标视频片段与所述多个目标内容文本一一对应。本申请实施例的技术方案应用多模态技术全面理解视频,将视频信息具象化为内容文本。通过语言模型深度理解内容文本并决策剪辑思路,得到对视频高度理解的剪辑结果。