一种面向多语种文本图像的跨语种描述生成方法
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
AITNT公众号
AITNT APP
AITNT交流群
搜索
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI专利库
寻求报道
一种面向多语种文本图像的跨语种描述生成方法
申请号:
CN202411631533
申请日期:
2024-11-15
公开号:
CN119516548B
公开日期:
2025-10-28
类型:
发明专利
摘要
本发明公开了一种面向多语种文本图像的跨语种描述生成方法,其步骤包括:1获取多语种的文本图像并进行描述语句的标注;2构建面向多语种文本图像的跨语种描述生成网络;3构造多模态文本纠错任务的数据集,对描述生成网络中的部分模块进行预训练;4基于多语种文本图像描述生成数据集对网络的所有模块进行训练;5利用训练好的跨语种描述生成网络对任意输入的多语种文本图像生成指定语种的描述语句。本发明可以在多语种的场景下,对输入的多语种自然场景文本图像进行深度理解,输出多语种文本图像指定语种的描述语句。
技术关键词
信息编码
文本
生成方法
多模态
图像
视觉特征
序列
解码模块
识别标签
语句
字符分类器
更新网络参数
识别模块
语义
纠错
可读存储介质
系统为您推荐了相关专利信息
1
基于大语言模型的交互式图像处理方法及装置
大语言模型
输入区
插件
图像
文本
2
基于改进YOLOv7模型的输电线路施工设备感知方法及系统
输电线路施工设备
权重分配策略
通道注意力机制
输出特征
特征金字塔网络
3
芯片性能评估方法、装置、设备与存储介质
通道
参数
性能评估方法
芯片
性能评估设备
4
一种基于持续同调理论的岩溶储层几何非均质性评价方法
拓扑特征
评价方法
储层孔隙结构
岩石孔隙结构
持久性
5
对称工件点位的对称校准方法及装置
工件
矩阵
数据
三维相机
坐标系