一种基于区域提示的视觉语言目标检测器Zone-YOLO
申请号:CN202411048379
申请日期:2024-08-01
公开号:CN118940803B
公开日期:2025-12-09
类型:发明专利
摘要
本发明提出了一种基于区域提示的视觉语言目标检测器Zone‑YOLO,包括视觉编码器、文本编码器、Scale‑Aware VL‑PAN Neck、word embedding单词嵌入、zone prompts区域提示、Adapter适配器、Text Contrastive Head图文对比头、Zone Head,其中。本发明首创了尺度感知多模态融合模块,充分挖掘文本特征,学习在不同尺度下无缝融合多模态表征;本发明提出一种新的区域提示学习模块,将文本特征引入回归头,并捕获区域‑类别‑实例三重共现信息,显著提高了模型的定位性能。大量实验表明,Zone YOLO取得了具有竞争力的结果,并证明了基于预训练VLOD的闭集检测微调的优越性。
技术关键词
混合矩阵
文本编码器
混合特征矩阵
融合特征
图像
检测器
代表
多模态注意力
检测头
实体共现信息
注意力机制
视觉
通道
子模块
sigmoid函数