基于多模态大模型协同的视频剪辑方法及系统

申请号：CN202511287057

申请日期：2025-09-10

公开号：CN120786154B

公开日期：2025-12-26

类型：发明专利

摘要

本发明公开了基于多模态大模型协同的视频剪辑方法，属于视频处理技术领域。具体包括以下步骤：S1、视频预处理与智能分块：对原始视频进行预处理，将视频切割为小块，确保每个小块结尾为完整语句，输出各分块的时间戳、音频文本片段并以结构化数据存储；S2、多模态场景分隔与验证：将各分块即音频文本片段及其时间戳输入语言大模型，按规则初分场景再构建精灵图，输入视觉大模型验证商品是否切换，最终输出场景时间、标题及简介。通过“音频特征提取+语义完整性判断+量化分块规则”的组合策略，解决了传统视频分块中易出现的语句截断、时间戳混乱问题。具体而言，结合声波强度、语音停顿特征及语言大模型识别的语句边界。

技术关键词

视频剪辑方法多模态语句关键词分块文本场景验证商品视觉音频特征提取画面视频剪辑系统轨道数据存储语音识别模型匹配模块网格输出模块