基于多模态提示学习的零样本视频动作识别方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于多模态提示学习的零样本视频动作识别方法
申请号:CN202511017006
申请日期:2025-07-23
公开号:CN120932150A
公开日期:2025-11-11
类型:发明专利
摘要
本发明涉及一种基于多模态提示学习的零样本视频动作识别方法,主要提供了一种面向可泛化视频理解的多模态提示微调框架,该框架基于视觉‑语言预训练模型CLIP,通过柔和的提示微调策略,将CLIP模型在海量图像‑文本对上学习到的跨模态关联知识有效迁移至下游零样本视频动作识别任务;提示微调策略包括基于LoRA微调,跨帧提示微调以及上下文均衡微调。本申请能够提升模型的零样本识别能力和泛化能力。
技术关键词
视频动作识别方法 文本编码器 图像编码器 视频动作分类 多模态 视频特征提取 样本 生成动作 动作识别系统 注意力 标记 序列 模板 预训练模型 处理器 可读存储介质