基于动态全局局部记忆机制的长视频生成方法和系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于动态全局局部记忆机制的长视频生成方法和系统
申请号:CN202511498368
申请日期:2025-10-20
公开号:CN120976355A
公开日期:2025-11-18
类型:发明专利
摘要
本发明涉及计算机视觉技术领域,公开了一种基于动态全局局部记忆机制的长视频生成方法和系统。方法包括:获取参考图像、线稿序列及文本的特征;通过混合特征提取器融合视觉特征和文本特征,得到混合多模态特征;提取已生成的历史视频片段的全局记忆表示及前一视频片段的局部上下文特征,并与混合多模态特征进行跨注意力融合,将得到的全局视觉特征以跳层注入方式输入视频生成模型,或者将混合多模态特征以跳层注入方式输入视频生成模型,生成视频片段;在去噪过程中设定的后期阶段,对相邻视频片段的重叠区域进行潜空间融合。本发明提升线稿上色过程中的控制精度,并有效保证视频中各元素在时间维度上的色彩属性一致性。
技术关键词
视频生成模型 视频生成方法 多模态特征 记忆机制 生成视频片段 全局视觉特征 混合特征提取 融合视觉特征 注意力机制 序列特征 上下文特征 文本 动态 视频帧 标记 Softmax函数