一种基于多模态的意图识别方法、装置及可读介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于多模态的意图识别方法、装置及可读介质
申请号:CN202510841153
申请日期:2025-06-23
公开号:CN120911590A
公开日期:2025-11-07
类型:发明专利
摘要
本发明公开了一种基于多模态的意图识别方法、装置及可读介质,包括:获取待识别的同一时间序列的文本、视频和语音并输入到经训练的多模态意图识别模型;分别利用文本编码层、视频编码层和语音编码层对文本、视频和语音进行编码,得到文本编码特征、视频编码特征和语音编码特征;文本编码特征、视频编码特征和语音编码特征输入到浅层融合模块中,得到最终的视频伪标签和最终的语音伪标签;文本编码特征、最终的视频伪标签和最终的语音伪标签拼接后输入到深层融合模块和分类器中,得到意图识别预测结果及其输出概率。本发明充分利用LLM架构,并利用交叉注意力和LoRA模块进行模态对齐,有效提高特征融合效果和意图识别的准确性。
技术关键词
意图识别模型 编码特征 意图识别方法 语音编码 视频编码 注意力 多模态 文本 标签 解码 模块 分类器 意图识别装置 输出特征 处理器 网络