摘要
本发明可应用于智慧医疗和金融领域,公开了一种端到端的语音合成方法、装置、计算机设备及存储介质,包括:获取待合成文本和参考音频;对所述待合成文本进行特征提取,得到包含上下文信息的文本特征;对所述参考音频进行特征提取,得到离散语音特征;基于神经网络模型构建所述文本特征和所述离散语音特征的对齐关系,生成当前语音帧的概率分布;基于声码器对所述当前语音帧的概率分布进行处理,得到所述待合成文本对应的语音波形,从而得到合成语音。本发明端到端的语音合成装置可从文本直接生成波形,简化了生成流程,可显著提升实时性,且通过神经网络模型显式学习文本与语音的对齐关系,不需要复杂的对齐操作,可进一步减少延迟。