基于唇语增强的语音交互方法、装置、设备及存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于唇语增强的语音交互方法、装置、设备及存储介质
申请号:CN202510881883
申请日期:2025-06-27
公开号:CN120600019A
公开日期:2025-09-05
类型:发明专利
摘要
本发明公开了基于唇语增强的语音交互方法、装置、设备及存储介质,基于唇语增强的语音交互方法包括:基于唇部区域的图像序列提取唇语特征,对语音信号进行特征提取得到音频特征;将唇语特征和音频特征进行跨模态融合编码,生成包含视听信息的混合特征;将混合特征输入到大语言模型中,理解交互对象的意图并生成相应的语义回复;最后合成为语音和/后转换为文字。本发明通过引入唇部特征,为语音识别提供额外的视觉线索,能够显著提高语音识别的鲁棒性和准确性;将唇语特征和声音特征进行有效的融合编码,避免了简单独立识别造成的语义信息割裂;且充分利用大模型的能力,实现更自然、更智能的交互体验。
技术关键词
语音交互方法 音频特征 关键点检测算法 唇语特征 跨模态 人脸检测模型 视频流 视听 语义 序列 编码 面部 Softmax函数 预测运动轨迹 注意力 语音交互装置 人脸特征向量 图像