一种多尺度自适应特征融合的声音事件定位与检测方法

申请号：CN202411892219

申请日期：2024-12-20

公开号：CN119724238A

公开日期：2025-03-28

类型：发明专利

摘要

本发明公开了一种多尺度自适应特征融合的声音事件定位与检测方法，对待检测的多通道音频信号进行预处理，生成Mel谱图并计算有效强度向量，构建输入特征矩阵并输入编码器进行多尺度特征提取，输出多层空间特征；通过选择性频率感知特征融合模块对多层空间特征进行频率自适应调节，平滑全局特征并增强边界细节。使用分层多尺度特征集成模块对浅层特征与深层特征进行融合，并结合双向门控循环单元进行时间建模，输出检测结果。本发明能够解决多源重叠声源干扰、噪声影响下的定位不稳定性、边界模糊引起的检测精度下降问题，以及特征混淆导致的时间频率细节丢失问题，能够显著提升定位和检测性能。

技术关键词

门控循环单元感知特征多尺度特征提取集成模块编码器高通滤波器频率低通滤波器抑制高频噪声语义信息提取深层特征提取短时傅里叶变换多通道融合特征矩阵特征金字塔融合全局

系统为您推荐了相关专利信息

一种基于多尺度注意力和网络架构搜索的目标检测方法

多尺度特征全景深度图融合注意力机制视觉特征神经网络架构搜索

一种充电站风险分级分类方法

分级分类方法充电站量化评价指标异常信息页面弹窗

一种基于级联多感受野的轻量级医学图像分割方法

医学图像分割方法级联分割医学图像通道特征提取器

电机状态检测模型训练方法、电机状态检测方法及装置

电机状态检测模型训练方法样本量子态生成对抗网络

一种基于意图指令交互驱动的机器视觉方法

意图指令机器视觉方法数据文本编码器视觉算法