基于多模态融合的智能拾音与语音识别系统

申请号：CN202511487235

申请日期：2025-10-17

公开号：CN120954408A

公开日期：2025-11-14

类型：发明专利

摘要

本发明公开了基于多模态融合的智能拾音与语音识别系统，涉及人工智能与语音识别交叉技术领域。系统包括主控制模块、多个拾音节点和多模态融合引擎，其中多模态融合引擎包含声源定位与分离、环境自适应降噪、跨模态特征融合及动态上下文理解四个核心组件。通过阵列麦克风与辅助传感器组采集多模态数据，系统实现声源定位与分离、动态环境噪声抑制、多模态特征深度融合以及上下文语义校正。本发明有效提升语音识别的鲁棒性、准确率及智能交互能力，在噪声环境、口音变化等复杂场景下改善语音交互体验，为智能语音交互设备提供更可靠的语音处理解决方案。

技术关键词

语音识别系统动态上下文阵列麦克风智能语音交互设备独立分量分析方法低功耗广域网技术注意力机制噪声功率谱估计多模态特征智能交互能力梅尔频率倒谱系数环境噪声抑制跨模态感知线性预测语音特征编解码器优化器