一种基于多模态CLIP视觉语言模型的场景异常检测方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于多模态CLIP视觉语言模型的场景异常检测方法
申请号:CN202411912803
申请日期:2024-12-24
公开号:CN119832561A
公开日期:2025-04-15
类型:发明专利
摘要
本发明属于人工智能技术领域,具体的说是一种基于多模态CLIP视觉语言模型的场景异常检测方法,包括多层级特征的多专家适配器、图像文本特征对比和CLIP LoRA高效参数微调,多层级特征的多专家适配器:将CLIP应用到下游任务常见做法是在VIT骨干网络中引入额外的跨层CLIP‑Adapter,即在不同层间引入可训练的BottleNeck,并在BottleNeck上采样部分引入专家混合模型的多专家网络;通过在BottleNeck的上采样部分引入MoE多专家网络,对不同的场景以及场景异常分别建模,每个专家专门研究输入空间的一个子集,可以针对特定问题进行优化,提高处理特定问题的效率。
技术关键词
异常检测方法 多层级特征 多模态 阶段 文本 网络 适配器 场景 视觉 焦点损失函数 图像级标签 人工智能技术 嵌入特征 像素 代表 参数 矩阵 做法