摘要
本发明公开了一种模型训练方法、视频处理方法、装置、设备及介质,应用于计算机技术领域,包括:获取带有标签的训练样本和场景数据;训练样本为目标对象的自录相视频数据;利用单模态模型和多模态模型分别对训练样本进行评估,根据评估结果对各训练样本进行筛选,得到筛选后的训练样本;利用筛选后的训练样本和场景数据对待训练模型进行阶段式训练,并利用上一阶段的训练结果调整下一阶段的训练数据和模型参数,直至满足结束条件,得到训练好的模型。本发明通过单多模态联合评估,既保障单一模态质量,又确保跨模态对齐,提高了训练数据质量;阶段式动态调整机制能根据模型性能实时优化训练数据与参数,充分利用训练数据,提高模型训练准确性。