基于多模态大语言模型的对话生成方法及装置

申请号：CN202510436346

申请日期：2025-04-09

公开号：CN119938874B

公开日期：2025-07-18

类型：发明专利

摘要

本发明公开了一种基于多模态大语言模型的对话生成方法及装置，涉及对话生成领域，包括：获取查询语句和图像并输入到经微调的多模态大语言模型，图像输入到预训练的图像编码器中，得到多尺度编码特征和选定图像特征，多尺度编码特征经过多层聚合模块，提取得到低级图像特征和高级图像特征；将查询语句输入到文本编码器中，得到文本特征；将以上特征输入到模内及模间增强模块中进行增强，得到增强的图像特征并沿通道连接后经过多层感知机模块进行投影，得到视觉符元；将查询语句输入到预训练的分词器中进行分词，得到文本符元；将视觉符元和文本符元输入到经训练的大语言模型，生成回答语句。本发明解决现有的MLLM未考虑模内和模间相关性问题。

技术关键词

编码特征大语言模型对话生成方法图像编码器多尺度多层感知机文本编码器多模态查询特征语句矩阵模块 Softmax函数 Sigmoid函数对话生成装置视觉处理器

系统为您推荐了相关专利信息

基于红外影像的藏羚羊实时轨迹监测系统及方法

监测方法轨迹监测系统组合跟踪算法红外相机影像

一种由粗到细的土地利用变化智能化检测方法与系统

智能化检测方法场景类别场景分类 DBN模型误差反向传播

一种测试用例生成增强的方法级自动程序修复方法

自动程序修复补丁故障定位方法序列大语言模型

基于指令微调大语言模型的固废胶凝材料性能预测方法

材料性能预测方法大语言模型样本指令后处理模块

目标知识数据生成方法、装置、电子设备及存储介质

关键词文本图片数据生成方法大语言模型