一种训练数据生成方法、电子设备、存储介质及程序产品
申请号:CN202511101859
申请日期:2025-08-07
公开号:CN120632467A
公开日期:2025-09-12
类型:发明专利
摘要
本申请提供一种训练数据生成方法、电子设备、存储介质及程序产品,方法包括:获取目标领域的领域标识信息,生成与目标领域相关的系统级提示信息;将系统级提示信息输入至已完成对齐训练的大语言模型中,驱动模型生成与目标领域相关的输入指令集;基于该输入指令集,生成与输入指令集语义相关的回应集,从而形成第一训练数据集;将第一训练数据集中的每一个指令‑回应对,通过多轮对话扩展生成方式,构建具有语义连贯性与丰富上下文的多轮对话训练数据;汇总多轮对话训练数据,构建第二训练数据集。本方法生成的训练数据不依赖人工提示工程、专家撰写或预设种子指令,能够快速适应不同领域业务需求,具备优异的通用性、可迁移性与跨领域扩展性。
技术关键词
训练数据生成方法
大语言模型
多轮对话
系统级
生成方式
标识
综合语义
计算机程序指令
生成参数
字段
条目
预训练语言模型
电子设备
风格
语义意图
样本
语义结构