一种基于适配器融合的音视频双模态情感识别方法及系统

申请号：CN202510907472

申请日期：2025-07-02

公开号：CN120411863B

公开日期：2025-08-26

类型：发明专利

摘要

本发明涉及人工智能与情感计算技术领域，具体涉及一种基于适配器融合的音视频双模态情感识别方法及系统；该方法包括：获取视频帧序列和音频信号，并进行预处理；构建情感识别模型；基于双模态特征提取模块依次嵌入空间适配器和全局适配器，依次得到对应模态增强后的空间特征和全局特征；基于全局特征生成对应模态的中间表示，根据中间表示进行特征融合，分别得到对应模态的融合特征；拼接融合特征，进行时序特征的提取，得到最终特征；将最终特征输入至分类器中，得到预测情绪类别，采用损失函数对情感识别模型进行训练，确定最优的情感识别模型；将待识别的视频帧序列和音频信号输入至情感识别模型，输出识别结果。

技术关键词

情感识别模型音视频双模态情感识别方法视频帧输出特征适配器结构融合特征特征提取模块音频序列时序特征分类器编码器信号情感计算技术跨模态情感识别系统分支