摘要
本发明涉及计算机视觉技术领域,特别涉及一种基于预训练微调的低资源语言唇语识别方法及装置。方法包括:利用大量的英语视频数据集对模型进行预训练,以确保模型获得强大的泛化能力和有效的唇部特征表达能力;随后加载预训练模型权重后,通过少量藏语唇语数据集对模型进行全参数微调,以克服藏语视频数据稀缺的挑战。在推理解码阶段,引入专门针对藏语文本训练的Transformer语言模型,有效降低了唇语识别过程中可能出现的同音词混淆问题,从而提高了句子级别藏语唇语识别的准确性。总体架构经上述创新结构与方法改进,成功实现了对低资源语言的有效纯视觉唇语识别。