基于多模态提示学习的零样本视频动作识别方法

申请号：CN202511017006

申请日期：2025-07-23

公开号：CN120932150A

公开日期：2025-11-11

类型：发明专利

摘要

本发明涉及一种基于多模态提示学习的零样本视频动作识别方法，主要提供了一种面向可泛化视频理解的多模态提示微调框架，该框架基于视觉‑语言预训练模型CLIP，通过柔和的提示微调策略，将CLIP模型在海量图像‑文本对上学习到的跨模态关联知识有效迁移至下游零样本视频动作识别任务；提示微调策略包括基于LoRA微调，跨帧提示微调以及上下文均衡微调。本申请能够提升模型的零样本识别能力和泛化能力。

技术关键词

视频动作识别方法文本编码器图像编码器视频动作分类多模态视频特征提取样本生成动作动作识别系统注意力标记序列模板预训练模型处理器可读存储介质