一种基于受限偏好标识排序的偏好对齐模型训练方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于受限偏好标识排序的偏好对齐模型训练方法
申请号:CN202411713028
申请日期:2024-11-27
公开号:CN119202915B
公开日期:2025-04-08
类型:发明专利
摘要
本发明公开了一种基于受限偏好标识排序的偏好对齐模型训练方法,包括基于SFT数据集,构建候选偏好数据集;基于候选偏好数据集,构建受限偏好标识排序数据集;采用受限偏好标识排序数据集训练SFT模型,得到偏好对齐模型。本发明能够避免大语言模型在训练中出现不稳定、过拟合等问题,无需人工标注大量偏好数据,并且大幅度减少训练偏好对齐模型所需的算力。
技术关键词
答案 模型训练方法 标识 受限 数据 列表 大语言模型 策略 文本 指令