一种基于交互式小波变换和Transformer的遥感图像长字幕生成方法、系统、设备及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于交互式小波变换和Transformer的遥感图像长字幕生成方法、系统、设备及介质
申请号:CN202510225548
申请日期:2025-02-27
公开号:CN120111162A
公开日期:2025-06-06
类型:发明专利
摘要
一种基于交互式小波变换和Transformer的遥感图像长字幕生成方法、系统、设备及介质,方法:采用语义分割模型对获取的遥感图像数据集进行语义分割,生成遥感图像中各类地物在不同方位的占比信息;并将其输入大语言模型中,根据具体要求生成文本,构建图像‑文本对;对图像‑文本对全面审查,剔除其中明显错误的图像‑文本对;将审查后的图像‑文本对整理保存,用作遥感图像‑文本对数据集;搭建遥感图像长字幕生成网络,包括:图像编码器、交互式小波变换模块和语言模型;训练交互式小波变换模块;训练遥感图像长字幕生成网络;性能评估;系统、设备及介质用于实现该方法;本发明具有提高数据集质量、增强模型理解与生成能力以及提升字幕生成准确性的优点。
技术关键词
字幕生成方法 文本 图像变换器 遥感图像数据 视觉特征 生成遥感图像 图像编码器 语义分割模型 模块 高维特征向量 大语言模型 生成字幕 地物类别 网络 可读存储介质