摘要
本发明属于人工智能领域,涉及教学互动抢答定位方法、装置、计算机设备及存储介质,所述方法包括:获取视频帧序列的集合以及对应的混合音频文件;识别视频帧序列的集合中的关键帧,进行特征提取,并对混合音频进行短时傅里叶变换,再对音频进行特征提取;进行多模态融合生成频谱掩码;计算连续视频帧的动量信息并生成动量嵌入,根据频谱掩码进行频谱嵌入处理;输入动量感知Transformer模块,生成序列信息;进行残差融合,生成频谱掩码;生成可视化声源定位图。多模态融合提升定位准确性,动量嵌入与频谱嵌入增强时序敏感性,残差融合优化特征整合,可视化声源定位图增强直观性,增强学习的互动性和趣味性,有助于提升教学效率与质量。