摘要
VEM‑Token节拍捕捉和对齐模型建构的方法,是基于VEM‑Token声乐情绪多模态模型方法,采用音乐节拍来切分声乐文件为VEM‑Token词元的深化创新。本方法核心是建立声乐文件的节拍模型、节拍捕捉模型和节拍对齐模型,前者将样本声乐文件通过多重滤波器分离歌声、伴奏声和情绪波动,在频谱格式文件中捕捉节拍的起点和终点,后者通过起点微调模型和终点微调模型,使得用户模仿文件与样本文件完成节拍对齐。采用包括节拍基础模型、谐波冲击、联合学习、谐波频率分层、动态时间规整等模型来捕捉节拍,采用基础模型、起点微调和终点微调、全程对齐校验、节拍编辑器、自由发挥节拍、重复对齐、通信接口协议等模型的构建,使得本方法适合接入Agent音乐智能体和AI音乐应用。