医学语言模型构建方法、设备、存储介质及产品

申请号：CN202510002140

申请日期：2025-01-02

公开号：CN119397283A

公开日期：2025-02-07

类型：发明专利

摘要

本申请公开了医学语言模型构建方法、设备、存储介质及产品，涉及计算机语言模型领域。所述方法包括获取对通用预训练数据集中的数据进行领域分类和质量过滤，得到高质量医疗数据集；根据高质量医疗数据集和通用预训练数据集构建得到第一样本数据集，并利用第一样本数据集对第一语言模型进行训练，得到第一训练模型；根据高质量医疗数据集和开源医学SFT数据集构建第二样本数据集，并利用第二样本数据集对第一训练模型进行训练，得到第二训练模型；利用第三样本数据集对第二训练模型进行训练，得到第三训练模型；利用偏好样本数据集对第三训练模型进行训练，得到医学语言模型。本申请解决了传统方法忽略在CPT阶段数据构建的重要性问题。

技术关键词

语言模型构建方法医学数据样本标签分类器指令计算机程序产品因子处理器过滤方法答案可读存储介质存储器电子设备阶段参数