一种基于视觉-语言多模态的船牌识别方法

申请号：CN202510611737

申请日期：2025-05-13

公开号：CN120635876A

公开日期：2025-09-12

类型：发明专利

摘要

一种基于视觉‑语言多模态的船牌识别方法，包括以下步骤：S1：通过图像采集设备获取待识别区域的原始图像；S2：对采集的图像进行超分辨重建和数据增强预处理，生成船牌识别数据集；S3：构建视觉‑语言多模态的船牌识别模型，模型包括视觉模块、语言模块和融合模块；S4：将S2生成的数据集输入到视觉模块进行预训练；S5：利用船牌语料库进行语言模块预训练；S6：加载S4和S5得到的预训练权重，将S2生成的数据集输入到船牌识别模型进行，采用门控融合策略动态加权视觉特征与语言特征，生成多模态联合表征，通过多模态融合损失函数对船牌识别模型进行优化。本发明有效地提高了船牌识别的准确率，提升对遮挡、模糊图像的适应性。

技术关键词

语言模块多模态字符识别方法船牌注意力机制图像采集设备大规模文本数据内河船舶分辨率融合视觉特征融合策略划分方法序列

系统为您推荐了相关专利信息

水电站四足机器人夜视智能巡检方法、系统、设备及介质

智能巡检方法四足机器人水电站高效多尺度马赛克

一种基于多模态融合的海上目标探测方法及装置

注意力融合特征输入解码器图片混合编码器

双会话增强的时间感知查询补全系统和方法

会话日志大语言模型子模块感知特征

一种面向超大规模流量的高效开集加密流量识别方法

加密流量识别方法网络流量数据集超大规模注意力机制识别算法

一种基于深度学习的三维高效人体坐姿识别方法

人体坐姿识别方法关键点特征提取多尺度特征提取局部特征提取数据