一种基于动作提名去噪的弱监督视频时序内容定位方法和系统

申请号：CN202510150661

申请日期：2025-02-11

公开号：CN120126045A

公开日期：2025-06-10

类型：发明专利

摘要

本发明为一种基于动作提名去噪的弱监督视频时序内容定位方法和系统。获取待处理视频及对应于视频的文本描述；生成文本描述的正样例和负样例作为文本样例；将视频切帧后得到视频片段，提取视频特征；基于文本样例和文本描述提取出文本特征和文本描述特征；通过文本特征得到噪声表达,将噪声表达输入至噪声混合器与原始噪声结合得到混合噪声；将混合噪声、视频特征和文本特征输入时序扩散网络得到隐特征表达；将隐特征表达输入时序提名生成网络得到高斯建模参数，进而构建时序片段掩码；将时序片段掩码、视频特征和文本描述特征输入语义文本重建网络进行语义文本重建和组合排序学习；基于时序片段掩码和高斯建模参数得到与文本描述相关视频片段的位置。

技术关键词

文本时序视频内容定位方法噪声语义网络存储计算机程序混合器双级结构特征提取模块大语言模型混合模块数据获取模块参数定位系统定位模块电子装置存储器处理器