一种基于多模态的意图识别方法、装置及可读介质

申请号：CN202510841153

申请日期：2025-06-23

公开号：CN120911590A

公开日期：2025-11-07

类型：发明专利

摘要

本发明公开了一种基于多模态的意图识别方法、装置及可读介质，包括：获取待识别的同一时间序列的文本、视频和语音并输入到经训练的多模态意图识别模型；分别利用文本编码层、视频编码层和语音编码层对文本、视频和语音进行编码，得到文本编码特征、视频编码特征和语音编码特征；文本编码特征、视频编码特征和语音编码特征输入到浅层融合模块中，得到最终的视频伪标签和最终的语音伪标签；文本编码特征、最终的视频伪标签和最终的语音伪标签拼接后输入到深层融合模块和分类器中，得到意图识别预测结果及其输出概率。本发明充分利用LLM架构，并利用交叉注意力和LoRA模块进行模态对齐，有效提高特征融合效果和意图识别的准确性。

技术关键词

意图识别模型编码特征意图识别方法语音编码视频编码注意力多模态文本标签解码模块分类器意图识别装置输出特征处理器网络