基于语音控制的多模态智能终端AI语音唤醒方法和装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于语音控制的多模态智能终端AI语音唤醒方法和装置
申请号:CN202511376125
申请日期:2025-09-25
公开号:CN120853549A
公开日期:2025-10-28
类型:发明专利
摘要
本发明涉及语音分析技术领域,具体涉及基于语音控制的多模态智能终端AI语音唤醒方法和装置,包括:利用语音模型提取每个语音样本的特征,利用视频模型提取每个面部动作样本的特征;包含唤醒语音的语音样本的记为正样本,不包含唤醒语音的语音样本记为负样本,利用正、负样本对应的面部动作样本的特征更新语音模型的参数以及更新正、负样本对应的面部动作样本,然后利用更新后的面部动作样本更新视频模型的参数;并重复上述参数更新过程。本发明在不显著增加模型参数的前提下,实现复杂且多变的语音环境下高效、准确的语音唤醒功能。
技术关键词
AI语音 样本 唤醒方法 智能终端 生成向量 视频 面部关键点检测 参数 语音分析技术 语音唤醒功能 麦克风 曲线 直方图 唤醒装置 人脸 相机 处理器