一种基于DPO的医疗大模型及其应用

申请号：CN202411541152

申请日期：2024-10-31

公开号：CN119650033A

公开日期：2025-03-18

类型：发明专利

摘要

本发明涉及一种基于DPO的医疗大模型及其应用，医疗大模型以数据前处理模块收集并处理数据、基于数据获取医疗大模型的输入和输出间的映射关系，偏好校准模块则基于DPO优化数据前处理模块、调节医疗大模型的模型参数，以反馈优化模块建立医疗偏好对齐质量评估策略和偏好对齐优化策略；医疗大模型可应用于医疗诊断问答系统。本发明解决现有医疗大模型的偏好对齐问题，提升医疗大模型的精准度和效率，通过直接优化语言模型，避免传统RLHF中的奖励模型构建和强化学习步骤，以更好地满足人类偏好。

技术关键词

梯度下降算法数据问答系统模块模糊神经网络序列策略校准人类答案参数指标定义决策校正编码关系文本格式数值