一种基于区域提示的视觉语言目标检测器Zone-YOLO

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于区域提示的视觉语言目标检测器Zone-YOLO
申请号:CN202411048379
申请日期:2024-08-01
公开号:CN118940803B
公开日期:2025-12-09
类型:发明专利
摘要
本发明提出了一种基于区域提示的视觉语言目标检测器Zone‑YOLO,包括视觉编码器、文本编码器、Scale‑Aware VL‑PAN Neck、word embedding单词嵌入、zone prompts区域提示、Adapter适配器、Text Contrastive Head图文对比头、Zone Head,其中。本发明首创了尺度感知多模态融合模块,充分挖掘文本特征,学习在不同尺度下无缝融合多模态表征;本发明提出一种新的区域提示学习模块,将文本特征引入回归头,并捕获区域‑类别‑实例三重共现信息,显著提高了模型的定位性能。大量实验表明,Zone YOLO取得了具有竞争力的结果,并证明了基于预训练VLOD的闭集检测微调的优越性。
技术关键词
混合矩阵 文本编码器 混合特征矩阵 融合特征 图像 检测器 代表 多模态注意力 检测头 实体共现信息 注意力机制 视觉 通道 子模块 sigmoid函数
系统为您推荐了相关专利信息
预览图像生成方法 核心 元素 场景 图像融合信息
远距离 特征提取模块 视角 表达式 深度值
深海水密接插件 寿命预测方法 稀疏神经网络 矩阵 因子
表面缺陷检测方法 裂纹 气泡 图像处理 像素点
图像嵌入 变压器 推理方法 注意力机制 图谱