一种智能座舱多模态语音交互系统和方法

申请号：CN202511576814

申请日期：2025-10-31

公开号：CN121034318A

公开日期：2025-11-28

类型：发明专利

摘要

本发明属于语音处理技术领域，本发明公开了一种智能座舱多模态语音交互系统和方法，包括语音触发单元，采集座舱内的环境音频与视频信息，结合车辆内部的环境感知参数，对是否进入语音交互模式进行判断，当语音交互触发条件成立时，生成与当前环境适配的语音交互输入信号；口型解析单元，对语音交互输入信号进行声学特征提取，同步解析视频信息中驾驶员的唇部运动轨迹，建立语音音素与口型运动的对应关系，形成联合解析特征；候选生成单元，对联合解析特征进行分段对齐，构建连续的多模态片段序列；通过对多模态片段序列进行时间同步，并投影至预定义的意图空间，进而获取包含不同候选意图的候选意图集合；提升了智能座舱的人机交互体验。

技术关键词

多模态语音智能座舱交互系统意图动态上下文信息多模态协同音频视频运动轨迹特征提取驾驶员人脸序列时间同步信号人脸关键点定位声学特征解析单元人机交互体验