一种大语言模型驱动的无人机图像语义传输与问答系统和方法
申请号:CN202510011196
申请日期:2025-01-03
公开号:CN120087484A
公开日期:2025-06-03
类型:发明专利
摘要
本发明公开了一种大语言模型驱动的无人机图像语义传输与问答系统和方法,图像语义提取和量化模块利用语义编码器对无人机捕获的原始图像进行语义特征提取,再通过码本机制离散化特征向量,用于无线信道传输。图像重建模块根据接收到的离散向量对应收发端共享的码本从语义层面恢复传输图像。图像字幕生成模块将图像重建模块恢复的图像作为输入,利用BLIP字幕生成系统生成文本描述信息。提示词生成模块根据用户任务描述和图像字幕生成模块输出文本描述信息生成一段提示词。大语言模型问答模块根据提示词输出自然语言响应指导无人机下一步行动。本发明提升低信噪比条件下无线图像传输的鲁棒性和效率,并且提高问答系统的可解释性,具有一定的实用价值。
技术关键词
大语言模型
问答系统
无人机
字幕
图像语义提取
图像重建
解码器
模块
文本
重构原始图像
视觉特征
索引
感知损失函数
上采样
信道
语言编码器
自然语言理解