摘要
本申请公开了医学语言模型构建方法、设备、存储介质及产品,涉及计算机语言模型领域。所述方法包括获取对通用预训练数据集中的数据进行领域分类和质量过滤,得到高质量医疗数据集;根据高质量医疗数据集和通用预训练数据集构建得到第一样本数据集,并利用第一样本数据集对第一语言模型进行训练,得到第一训练模型;根据高质量医疗数据集和开源医学SFT数据集构建第二样本数据集,并利用第二样本数据集对第一训练模型进行训练,得到第二训练模型;利用第三样本数据集对第二训练模型进行训练,得到第三训练模型;利用偏好样本数据集对第三训练模型进行训练,得到医学语言模型。本申请解决了传统方法忽略在CPT阶段数据构建的重要性问题。