面向视觉图像的人机多轮交互方法和装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
面向视觉图像的人机多轮交互方法和装置
申请号:CN202510855555
申请日期:2025-06-25
公开号:CN120353959B
公开日期:2025-10-10
类型:发明专利
摘要
本申请涉及一种面向视觉图像的人机多轮交互方法,包括:从全局图像信息中提取与当前多轮对话文本特征相关的局部图像特征;根据当前历史局部图像特征对所述局部图像特征进行更新,获取更新后的局部图像特征;采用交叉注意力机制,根据更新后的局部图像特征以及与全局图像信息对应的全局图像特征,确定视觉图像特征;将视觉图像特征输入多模态大模型进行处理。本申请构建了一套基于最优匹配机制的文本与视觉图像双模态上下文特征更新体系,能够在文本和图像两个模态上都具备“可更新、可压缩、可融合”的能力,显著提升模型在多轮对话中对语义线索的追踪能力与视觉焦点的动态理解能力,推动多轮图文对话系统在广域视觉理解中的性能突破。
技术关键词
局部图像特征 矩阵 多轮交互方法 多轮对话 交叉注意力机制 视觉 子模块 文本 多模态 人机 上下文特征 可读存储介质 对话系统 交互装置 双模态 存储器 处理器 输入模块
系统为您推荐了相关专利信息
智能控制方法 时间序列预测模型 密度聚类算法 空间分布特征 信号
封装寄生效应 测试方法 等效电路模型 缺陷分析 测试基准信号
多模态 反馈方法 矩阵 多尺度特征提取 图像特征向量
广义特征值 压电材料 矩阵 压电器件 表面声波滤波器
四旋翼无人机 非线性切换系统 容错控制方法 执行机构故障 平均停留时间