一种基于多阶段大模型的语音交互方法及系统

申请号：CN202511314480

申请日期：2025-09-15

公开号：CN121011180A

公开日期：2025-11-25

类型：发明专利

摘要

本发明公开了一种基于多阶段大模型的语音交互方法及系统，属于语音识别技术领域。本发明通过意图识别大模型、联网应答大模型和本地指令大模型构建了多阶段大模型框架，通过意图识别大模型识别交互文本的文本类别，再基于文本类别的不同，选择联网应答大模型或本地指令大模型对交互文本进行不同的处理，实现了多阶段大模型的语音交互；以意图识别大模型、联网应答大模型和本地指令大模型，能够避免现有的语音交互过程仅使用单一语言模型导致的语音交互识别不准确；通过直接将实时语音信号转换为交互文本，并直接对交互文本进行处理，避免了因用户的语音信息存在随机性、复杂性和模糊性导致的关键词不准确，从而提高了语音交互的识别准确性。

技术关键词

实时语音语音交互方法文本多阶段意图识别语音交互系统信号采集单元信号采集模块指令大语言模型音频矩阵深度学习模型生成语音语音识别技术信息熵微调方法算法