面向视觉图像的人机多轮交互方法和装置

申请号：CN202510855555

申请日期：2025-06-25

公开号：CN120353959B

公开日期：2025-10-10

类型：发明专利

摘要

本申请涉及一种面向视觉图像的人机多轮交互方法，包括：从全局图像信息中提取与当前多轮对话文本特征相关的局部图像特征；根据当前历史局部图像特征对所述局部图像特征进行更新，获取更新后的局部图像特征；采用交叉注意力机制，根据更新后的局部图像特征以及与全局图像信息对应的全局图像特征，确定视觉图像特征；将视觉图像特征输入多模态大模型进行处理。本申请构建了一套基于最优匹配机制的文本与视觉图像双模态上下文特征更新体系，能够在文本和图像两个模态上都具备“可更新、可压缩、可融合”的能力，显著提升模型在多轮对话中对语义线索的追踪能力与视觉焦点的动态理解能力，推动多轮图文对话系统在广域视觉理解中的性能突破。

技术关键词

局部图像特征矩阵多轮交互方法多轮对话交叉注意力机制视觉子模块文本多模态人机上下文特征可读存储介质对话系统交互装置双模态存储器处理器输入模块

系统为您推荐了相关专利信息

基于应用场景的手机信号智能控制方法及系统

智能控制方法时间序列预测模型密度聚类算法空间分布特征信号

MOS晶体管的封装级测试方法及装置

封装寄生效应测试方法等效电路模型缺陷分析测试基准信号

基于多模态数据的文本处理反馈系统及方法

多模态反馈方法矩阵多尺度特征提取图像特征向量

一种基于谱元法的压电材料特征值的求解方法和装置

广义特征值压电材料矩阵压电器件表面声波滤波器

基于切换设计的四旋翼无人机容错控制方法

四旋翼无人机非线性切换系统容错控制方法执行机构故障平均停留时间