图文交互对话理解方法和系统、电子设备及存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
图文交互对话理解方法和系统、电子设备及存储介质
申请号:CN202510445824
申请日期:2025-04-09
公开号:CN120375377A
公开日期:2025-07-25
类型:发明专利
摘要
本申请提供了一种图文交互对话理解方法和系统、电子设备及存储介质,涉及人工智能技术领域。该方法结合当前图像中的当前标记位置信息,对当前图像、当前标记位置信息和当前自然语言指令进行拼接处理,生成当前输入信息,解决了相关技术中图像与文本割裂的问题,实现了视觉与语言的深度对齐,能够更准确地理解用户输入的图文信息,从而理解用户的意图,进而能够提供准确且有针对性的回答;并且,对原始提示词、一个或多个当前示例、当前输入信息进行拼接处理,生成当前拼接内容,将当前拼接内容输入微调后的视觉语言模型,这样能让模型基于一个或多个当前示例借鉴学习,通过给模型相似的数据和对应理解结果,提高对当前输入信息的推理准确率。
技术关键词
标记位置信息 自然语言 指令 图像 图文 意图 对话理解系统 数据 多模态 视觉 编码 电子设备 文本 人工智能技术 计算机程序产品 拼接单元 笔尖 存储器 轨迹