摘要
本发明提供一种对话式多媒体内容生成方法、系统,通过预训练的大语言模型对标准文本进行语义理解和意图分析,以判断输入指令为检索指令还是编辑指令;若输入指令为检索指令,则将文本单元输入至预设的视频检索模型中,以使视频检索模型反馈出与所述文本单元相适配的目标视频;若输入指令为编辑指令,则对标准文本进行相似度匹配,以获取编辑模式,并采用编辑模式依次对用户预选定的待编辑视频进行视频抠像、视频调和、视频分割、视频修复、音频生成和口型生成等类型的编辑处理以获取多媒体生成内容,如此,使得多媒体内容编辑变得智能化,能够大大降低多媒体编辑的门槛,为用户提供更加便捷、高效的编辑体验。