摘要
本发明公开了基于多模态大模型协同的视频剪辑方法,属于视频处理技术领域。具体包括以下步骤:S1、视频预处理与智能分块:对原始视频进行预处理,将视频切割为小块,确保每个小块结尾为完整语句,输出各分块的时间戳、音频文本片段并以结构化数据存储;S2、多模态场景分隔与验证:将各分块即音频文本片段及其时间戳输入语言大模型,按规则初分场景再构建精灵图,输入视觉大模型验证商品是否切换,最终输出场景时间、标题及简介。通过“音频特征提取+语义完整性判断+量化分块规则”的组合策略,解决了传统视频分块中易出现的语句截断、时间戳混乱问题。具体而言,结合声波强度、语音停顿特征及语言大模型识别的语句边界。