面向医疗大语言模型的有害回复防御方法及装置

申请号：CN202511167558

申请日期：2025-08-20

公开号：CN120653770B

公开日期：2025-10-28

类型：发明专利

摘要

本发明公开了一种面向医疗大语言模型的有害回复防御方法及装置，涉及自然语言处理领域，包括：获取用户的输入语句并输入到经训练的改写模型中，输出改写语句；若需要进行检索增强生成，则将改写语句在医学知识库中进行检索，将改写语句与每个医学知识片段拼接并输入到经训练的医疗大语言模型，生成响应语句；结合医学知识片段对每个响应语句进行安全评分计算，得到第一安全评分；判断是否存在第一安全评分大于安全阈值，若是则将第一安全评分最高所对应的响应语句作为回复语句，否则进行筛选，根据筛选结果确定回复语句；将回复语句输入到经训练的判断模型中，将不存在有害内容的回复语句进行输出。本发明解决难以对输入语句有效识别过滤的问题。

技术关键词

大语言模型医学知识库关键词生成回复语句语义医学专用处理器计算机程序产品标记文本自然语言识别模块存储装置可读存储介质电子设备数据

系统为您推荐了相关专利信息

一种基于环境信息主动感知的智能体具身交互规划方法

交互动作多模态信息融合预测误差界面语义特征

一种基于大语言模型的高效序列推荐方法

交互历史序列推荐方法大语言模型网络特征样本

一种基于大模型的跨域协同审计系统

审计系统大语言模型数据连接器数据可视化工作流引擎

基于AI大模型训练的芯片测试系统、装置及方法

待测芯片信号芯片测试系统测试场景芯片量产测试效率

图像处理模型的训练方法和病灶图像分割方法

图像特征矢量图像编码图像处理模型图像分割模型文本