摘要
本发明公开了一种视觉目标跟踪方法、装置、介质和设备,涉及视觉目标跟踪技术领域。本发明使用模版桥接交互更新来丰富上下文信息并排除背景干扰。首先,在视频数据集进行数据增强后得到训练集,随后从训练集中裁剪出原始模板图像、历史模板图像和搜索区域图像。然后将这组图像在空间上分割并展平为3个块序列,输入到Vit主干网络中进行特征提取,并在提取过程中使用模板桥接交互更新模块进行交互传播目标和上下文信息。通过连续的Transformer块,逐步提取搜索区域和原始模板、历史模板的特征,并捕捉它们之间的匹配关系,最后将特征送入预测头进行分类任务和回归任务;并结合分类结果与回归结果对目标进行精确的定位。