一种基于预训练微调的低资源语言唇语识别方法及装置

申请号：CN202511389203

申请日期：2025-09-26

公开号：CN120877391B

公开日期：2025-12-26

类型：发明专利

摘要

本发明涉及计算机视觉技术领域，特别涉及一种基于预训练微调的低资源语言唇语识别方法及装置。方法包括：利用大量的英语视频数据集对模型进行预训练，以确保模型获得强大的泛化能力和有效的唇部特征表达能力；随后加载预训练模型权重后，通过少量藏语唇语数据集对模型进行全参数微调，以克服藏语视频数据稀缺的挑战。在推理解码阶段，引入专门针对藏语文本训练的Transformer语言模型，有效降低了唇语识别过程中可能出现的同音词混淆问题，从而提高了句子级别藏语唇语识别的准确性。总体架构经上述创新结构与方法改进，成功实现了对低资源语言的有效纯视觉唇语识别。

技术关键词

低资源语言唇语识别系统唇语识别方法视觉特征提取分词模型文本编解码视频数据特征语音识别技术英语解码器架构两阶段标签特征提取器网络