基于帧序列抽象与语言模型引导的视频理解方法、装置、设备及介质

申请号：CN202510825350

申请日期：2025-06-19

公开号：CN120708131A

公开日期：2025-09-26

类型：发明专利

摘要

本申请提供一种基于帧序列抽象与语言模型引导的视频理解方法，应用于人工智能和多模态信息处理技术领域，对视频帧序列中的图像特征进行预处理与镜头分割，生成代表帧编码数据；基于分镜段语义提取规则对代表帧图像特征进行语义解析，结合结构化文本指令对大语言模型的引导作用及模型输出特性，生成语义序列数据；基于多帧拼接输入方式对跨分镜代表帧特征进行处理，结合文本指令结构设计与模型输出规则动态优化语义理解逻辑，生成结构化场景理解数据；对结构化场景理解数据进行处理，生成包含视频语义摘要、脚本创作语义片段、视频标签与商品卖点的应用数据；基于预设应用场景规则对应用数据进行处理，生成视频结构化语义标注结果。

技术关键词

结构化场景语义视频理解方法生成代表序列视频帧数据图像文本摘要脚本指令大语言模型标签格式信息处理技术逻辑