摘要
本发明公开一种多格式文档智能有声内容生成系统及方法,涉及人工智能与音频生成技术领域;包括:步骤1:对用户上传的多种格式文档进行解析,生成结构化纯文本,步骤2:根据结构化纯文本的内容进行语义分析,识别纯文本中不同的情感色彩及语气特征,根据情感色彩及语气特征将纯文本转换为多角色的对话脚本,步骤3:调用文本转音频模型,为对话脚本的每段台词,生成对应角色的音频片段,步骤4:将音频流列表中音频片段按照台词顺序拼接合成为完整的音频文件;实现多格式文档内容的自动转换与多角色音频合成,且无需依赖云端服务,保障数据隐私并提升处理效率。