一种多格式文档智能有声内容生成系统及方法

申请号：CN202510206671

申请日期：2025-02-25

公开号：CN119724153A

公开日期：2025-03-28

类型：发明专利

摘要

本发明公开一种多格式文档智能有声内容生成系统及方法，涉及人工智能与音频生成技术领域；包括：步骤1：对用户上传的多种格式文档进行解析，生成结构化纯文本，步骤2：根据结构化纯文本的内容进行语义分析，识别纯文本中不同的情感色彩及语气特征，根据情感色彩及语气特征将纯文本转换为多角色的对话脚本，步骤3：调用文本转音频模型，为对话脚本的每段台词，生成对应角色的音频片段，步骤4：将音频流列表中音频片段按照台词顺序拼接合成为完整的音频文件；实现多格式文档内容的自动转换与多角色音频合成，且无需依赖云端服务，保障数据隐私并提升处理效率。

技术关键词

内容生成系统音频内容生成方法格式脚本可视化界面统一资源定位文本理解色彩分发模块输出模块列表语音标识参数生成技术语义标记

系统为您推荐了相关专利信息

视频剪辑方法和装置

文本视频剪辑方法序列标识符视频剪辑装置

一种基于Mamba的北极海冰密集度预测方法

海冰密集度分支陆地网络模型结构综合评估模型

一种果汁灌装检测系统及检测方法

容器封盖受力果汁音频传送单元

基于多模态数据的时空解耦情感分析方法及系统

情感分析方法文本视频多层次特征提取高层次

一种基于实时数据双模通信的电能表

无线通讯单元电能表实时数据无线通信单元数据加密