摘要
本发明公开了一种面向医疗大语言模型的有害回复防御方法及装置,涉及自然语言处理领域,包括:获取用户的输入语句并输入到经训练的改写模型中,输出改写语句;若需要进行检索增强生成,则将改写语句在医学知识库中进行检索,将改写语句与每个医学知识片段拼接并输入到经训练的医疗大语言模型,生成响应语句;结合医学知识片段对每个响应语句进行安全评分计算,得到第一安全评分;判断是否存在第一安全评分大于安全阈值,若是则将第一安全评分最高所对应的响应语句作为回复语句,否则进行筛选,根据筛选结果确定回复语句;将回复语句输入到经训练的判断模型中,将不存在有害内容的回复语句进行输出。本发明解决难以对输入语句有效识别过滤的问题。