基于帧序列抽象与语言模型引导的视频理解方法、装置、设备及介质
申请号:CN202510825350
申请日期:2025-06-19
公开号:CN120708131A
公开日期:2025-09-26
类型:发明专利
摘要
本申请提供一种基于帧序列抽象与语言模型引导的视频理解方法,应用于人工智能和多模态信息处理技术领域,对视频帧序列中的图像特征进行预处理与镜头分割,生成代表帧编码数据;基于分镜段语义提取规则对代表帧图像特征进行语义解析,结合结构化文本指令对大语言模型的引导作用及模型输出特性,生成语义序列数据;基于多帧拼接输入方式对跨分镜代表帧特征进行处理,结合文本指令结构设计与模型输出规则动态优化语义理解逻辑,生成结构化场景理解数据;对结构化场景理解数据进行处理,生成包含视频语义摘要、脚本创作语义片段、视频标签与商品卖点的应用数据;基于预设应用场景规则对应用数据进行处理,生成视频结构化语义标注结果。
技术关键词
结构化场景
语义
视频理解方法
生成代表
序列
视频帧
数据
图像
文本
摘要
脚本
指令
大语言模型
标签
格式
信息处理技术
逻辑