一种多模态生成式对话任务处理方法、装置及设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种多模态生成式对话任务处理方法、装置及设备
申请号:CN202511455152
申请日期:2025-10-13
公开号:CN120932648A
公开日期:2025-11-11
类型:发明专利
摘要
本申请公开了一种多模态生成式对话任务处理方法、装置及设备,包括:接收输入的文本内容、视觉内容和流式语音提问内容;当利用目标生成式对话任务处理模型中的全双工检测头检测到流式语音提问内容接收完成时,利用音频编码器对流式语音提问内容进行编码,并利用音频适配器将编码得到的音频特征向量转化为预设统一语义空间的第一词元;利用文本编码器对文本内容进行编码,得到预设统一语义空间的第二词元;利用视觉编码器对视觉内容进行编码,并利用视觉适配器将编码得到的图像特征向量转化为预设统一语义空间的第三词元;根据第一词元、第二词元和第三词元预测生成应答内容。本申请提升了语音判停效果,提高了应答内容的准确性。
技术关键词
音频适配器 多模态 音频编码器 图像特征向量 语义 文本编码器 全双工 视觉 检测头 预测误差 样本 可读存储介质 存储计算机程序 生成语音 模块