一种基于多模态CLIP视觉语言模型的场景异常检测方法
申请号:CN202411912803
申请日期:2024-12-24
公开号:CN119832561A
公开日期:2025-04-15
类型:发明专利
摘要
本发明属于人工智能技术领域,具体的说是一种基于多模态CLIP视觉语言模型的场景异常检测方法,包括多层级特征的多专家适配器、图像文本特征对比和CLIP LoRA高效参数微调,多层级特征的多专家适配器:将CLIP应用到下游任务常见做法是在VIT骨干网络中引入额外的跨层CLIP‑Adapter,即在不同层间引入可训练的BottleNeck,并在BottleNeck上采样部分引入专家混合模型的多专家网络;通过在BottleNeck的上采样部分引入MoE多专家网络,对不同的场景以及场景异常分别建模,每个专家专门研究输入空间的一个子集,可以针对特定问题进行优化,提高处理特定问题的效率。
技术关键词
异常检测方法
多层级特征
多模态
阶段
文本
网络
适配器
场景
视觉
焦点损失函数
图像级标签
人工智能技术
嵌入特征
像素
代表
参数
矩阵
做法