对话式多媒体内容生成方法、系统

申请号：CN202411128105

申请日期：2024-08-16

公开号：CN119150874A

公开日期：2024-12-17

类型：发明专利

摘要

本发明提供一种对话式多媒体内容生成方法、系统，通过预训练的大语言模型对标准文本进行语义理解和意图分析，以判断输入指令为检索指令还是编辑指令；若输入指令为检索指令，则将文本单元输入至预设的视频检索模型中，以使视频检索模型反馈出与所述文本单元相适配的目标视频；若输入指令为编辑指令，则对标准文本进行相似度匹配，以获取编辑模式，并采用编辑模式依次对用户预选定的待编辑视频进行视频抠像、视频调和、视频分割、视频修复、音频生成和口型生成等类型的编辑处理以获取多媒体生成内容，如此，使得多媒体内容编辑变得智能化，能够大大降低多媒体编辑的门槛，为用户提供更加便捷、高效的编辑体验。

技术关键词

文本视频编辑指令编码器模块多尺度特征大语言模型引导滤波器多媒体序列模式内容生成系统代表生成高分辨率透明度解码器概率分布函数匹配模块