基于多模态提示学习的零样本视频动作识别方法
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
AITNT公众号
AITNT APP
AITNT交流群
搜索
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI专利库
寻求报道
基于多模态提示学习的零样本视频动作识别方法
申请号:
CN202511017006
申请日期:
2025-07-23
公开号:
CN120932150A
公开日期:
2025-11-11
类型:
发明专利
摘要
本发明涉及一种基于多模态提示学习的零样本视频动作识别方法,主要提供了一种面向可泛化视频理解的多模态提示微调框架,该框架基于视觉‑语言预训练模型CLIP,通过柔和的提示微调策略,将CLIP模型在海量图像‑文本对上学习到的跨模态关联知识有效迁移至下游零样本视频动作识别任务;提示微调策略包括基于LoRA微调,跨帧提示微调以及上下文均衡微调。本申请能够提升模型的零样本识别能力和泛化能力。
技术关键词
视频动作识别方法
文本编码器
图像编码器
视频动作分类
多模态
视频特征提取
样本
生成动作
动作识别系统
注意力
标记
序列
模板
预训练模型
处理器
可读存储介质