摘要
本发明涉及一种时序对齐视觉语言跟踪方法及系统,主要包括:1)时序语义强化模块,用于动态更新语言标记,将静态语言描述转化为与跟踪序列时间对齐的动态标记权重;2)跨模态特征融合模块,整合时空语义对齐矩阵中的信息,强化视觉和语言特征的有效结合;3)恒常性学习平衡策略,通过监控损失波动,提升不同感知任务上的学习稳定性,并优化资源分配。通过以上技术方案的实施,本发明能够显著提高视觉语言跟踪的准确性和鲁棒性,尤其在复杂环境中,如遮挡和运动模糊等问题上,展现出良好的适应性和强大的性能优势,从而推动视觉与语言结合的多模态跟踪技术向更高水平发展。