基于多模态大语言模型的对话生成方法及装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于多模态大语言模型的对话生成方法及装置
申请号:CN202510436346
申请日期:2025-04-09
公开号:CN119938874B
公开日期:2025-07-18
类型:发明专利
摘要
本发明公开了一种基于多模态大语言模型的对话生成方法及装置,涉及对话生成领域,包括:获取查询语句和图像并输入到经微调的多模态大语言模型,图像输入到预训练的图像编码器中,得到多尺度编码特征和选定图像特征,多尺度编码特征经过多层聚合模块,提取得到低级图像特征和高级图像特征;将查询语句输入到文本编码器中,得到文本特征;将以上特征输入到模内及模间增强模块中进行增强,得到增强的图像特征并沿通道连接后经过多层感知机模块进行投影,得到视觉符元;将查询语句输入到预训练的分词器中进行分词,得到文本符元;将视觉符元和文本符元输入到经训练的大语言模型,生成回答语句。本发明解决现有的MLLM未考虑模内和模间相关性问题。
技术关键词
编码特征 大语言模型 对话生成方法 图像编码器 多尺度 多层感知机 文本编码器 多模态 查询特征 语句 矩阵 模块 Softmax函数 Sigmoid函数 对话生成装置 视觉 处理器
系统为您推荐了相关专利信息
监测方法 轨迹监测系统 组合跟踪算法 红外相机 影像
智能化检测方法 场景类别 场景分类 DBN模型 误差反向传播
自动程序修复 补丁 故障定位方法 序列 大语言模型
材料性能预测方法 大语言模型 样本 指令 后处理模块
关键词 文本 图片 数据生成方法 大语言模型