摘要
本发明属于语音处理技术领域,本发明公开了一种智能座舱多模态语音交互系统和方法,包括语音触发单元,采集座舱内的环境音频与视频信息,结合车辆内部的环境感知参数,对是否进入语音交互模式进行判断,当语音交互触发条件成立时,生成与当前环境适配的语音交互输入信号;口型解析单元,对语音交互输入信号进行声学特征提取,同步解析视频信息中驾驶员的唇部运动轨迹,建立语音音素与口型运动的对应关系,形成联合解析特征;候选生成单元,对联合解析特征进行分段对齐,构建连续的多模态片段序列;通过对多模态片段序列进行时间同步,并投影至预定义的意图空间,进而获取包含不同候选意图的候选意图集合;提升了智能座舱的人机交互体验。