一种基于动作提名去噪的弱监督视频时序内容定位方法和系统
申请号:CN202510150661
申请日期:2025-02-11
公开号:CN120126045A
公开日期:2025-06-10
类型:发明专利
摘要
本发明为一种基于动作提名去噪的弱监督视频时序内容定位方法和系统。获取待处理视频及对应于视频的文本描述;生成文本描述的正样例和负样例作为文本样例;将视频切帧后得到视频片段,提取视频特征;基于文本样例和文本描述提取出文本特征和文本描述特征;通过文本特征得到噪声表达,将噪声表达输入至噪声混合器与原始噪声结合得到混合噪声;将混合噪声、视频特征和文本特征输入时序扩散网络得到隐特征表达;将隐特征表达输入时序提名生成网络得到高斯建模参数,进而构建时序片段掩码;将时序片段掩码、视频特征和文本描述特征输入语义文本重建网络进行语义文本重建和组合排序学习;基于时序片段掩码和高斯建模参数得到与文本描述相关视频片段的位置。
技术关键词
文本
时序
视频
内容定位方法
噪声
语义
网络
存储计算机程序
混合器
双级结构
特征提取模块
大语言模型
混合模块
数据获取模块
参数
定位系统
定位模块
电子装置
存储器
处理器