摘要
本发明涉及计算机视觉与多模态学习技术领域,尤其是一种跨模态伪标签引导的弱监督目标检测方法。本发明构建有标签源域数据集训练图像分类教师模型,并构建教师‑学生网络结构;对目标域图像的区域特征聚类,通过优化源域类别与目标域簇之间的分配代价,为各簇分配伪标签,构建伪标签池;在伪标签池上训练学生模型用于目标域图像的区域特征检测。本发明通过引入跨模态注意力机制,实现了源类别标签与目标域特征之间更精准的语义对齐;结构保持正则项提升了标签分配的稳定性;多轮伪标签置信学习进一步增强了模型的泛化能力。本发明可广泛应用于目标检测、跨域迁移学习和开放世界识别等任务,实现了高效且精准的弱监督目标检测。