一种基于联邦视觉语言模型的遥感图像生成方法

申请号：CN202510724762

申请日期：2025-06-03

公开号：CN120635237A

公开日期：2025-09-12

类型：发明专利

摘要

本发明公开了一种基于联邦视觉语言模型的遥感图像生成方法，属于机器学习技术领域，具体包括：各客户端接收文本指令描述；将私有遥感图像数据通过视觉编码器提取多尺度特征图，同时文本指令描述通过语言编码器生成语义嵌入向量；将语义嵌入向量与多尺度特征图输入动态注意力掩码生成器，生成像素级空间权重分布；对多尺度特征图进行加权融合操作，生成文本条件化的视觉特征表示；通过图像解码器生成符合文本指令描述的遥感图像；客户端向中央服务器上传视觉编码器、语言编码器及动态注意力掩码生成器的模型参数增量；中央服务器聚合模型参数增量，将更新后的全局模型参数分发至各客户端；本发明有效提升了遥感图像生成的灵活性与语义一致性。

技术关键词

图像生成方法语言编码器编码向量注意力文本客户端图像解码器描述符视觉特征语义参数多尺度特征热力图遥感图像数据分辨率提升动态二值化阈值指令对象

系统为您推荐了相关专利信息

一种多源数据融合的配电网故障精准定位方法及系统

同步相量数据故障传播路径节点特征配电网故障注意力

基于帧序列抽象与语言模型引导的视频理解方法、装置、设备及介质

结构化场景语义视频理解方法生成代表序列

一种逐级特征增强与跨模态信息补偿结合的素描行人重识别方法

重识别方法特征提取网络照片行人特征跨模态

一种基于AI驱动的智能数据湖管理和优化系统及方法

子模块知识图谱构建深度学习模型实体自然语言

一种面向复杂场景的端到端语义提取系统

联合特征提取跨模态 Apriori算法多源异构数据融合可视化控制台