一种面向多语种文本图像的跨语种描述生成方法

申请号：CN202411631533

申请日期：2024-11-15

公开号：CN119516548B

公开日期：2025-10-28

类型：发明专利

摘要

本发明公开了一种面向多语种文本图像的跨语种描述生成方法，其步骤包括：1获取多语种的文本图像并进行描述语句的标注；2构建面向多语种文本图像的跨语种描述生成网络；3构造多模态文本纠错任务的数据集，对描述生成网络中的部分模块进行预训练；4基于多语种文本图像描述生成数据集对网络的所有模块进行训练；5利用训练好的跨语种描述生成网络对任意输入的多语种文本图像生成指定语种的描述语句。本发明可以在多语种的场景下，对输入的多语种自然场景文本图像进行深度理解，输出多语种文本图像指定语种的描述语句。

技术关键词

信息编码文本生成方法多模态图像视觉特征序列解码模块识别标签语句字符分类器更新网络参数识别模块语义纠错可读存储介质

系统为您推荐了相关专利信息

基于大语言模型的交互式图像处理方法及装置

大语言模型输入区插件图像文本

基于改进YOLOv7模型的输电线路施工设备感知方法及系统

输电线路施工设备权重分配策略通道注意力机制输出特征特征金字塔网络

芯片性能评估方法、装置、设备与存储介质

通道参数性能评估方法芯片性能评估设备

一种基于持续同调理论的岩溶储层几何非均质性评价方法

拓扑特征评价方法储层孔隙结构岩石孔隙结构持久性

对称工件点位的对称校准方法及装置

工件矩阵数据三维相机坐标系