一种基于预训练微调的低资源语言唇语识别方法及装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于预训练微调的低资源语言唇语识别方法及装置
申请号:CN202511389203
申请日期:2025-09-26
公开号:CN120877391B
公开日期:2025-12-26
类型:发明专利
摘要
本发明涉及计算机视觉技术领域,特别涉及一种基于预训练微调的低资源语言唇语识别方法及装置。方法包括:利用大量的英语视频数据集对模型进行预训练,以确保模型获得强大的泛化能力和有效的唇部特征表达能力;随后加载预训练模型权重后,通过少量藏语唇语数据集对模型进行全参数微调,以克服藏语视频数据稀缺的挑战。在推理解码阶段,引入专门针对藏语文本训练的Transformer语言模型,有效降低了唇语识别过程中可能出现的同音词混淆问题,从而提高了句子级别藏语唇语识别的准确性。总体架构经上述创新结构与方法改进,成功实现了对低资源语言的有效纯视觉唇语识别。
技术关键词
低资源语言 唇语识别系统 唇语识别方法 视觉特征提取 分词模型 文本 编解码 视频数据特征 语音识别技术 英语 解码器架构 两阶段 标签 特征提取器 网络