一种训练数据生成方法、电子设备、存储介质及程序产品

申请号：CN202511101859

申请日期：2025-08-07

公开号：CN120632467A

公开日期：2025-09-12

类型：发明专利

摘要

本申请提供一种训练数据生成方法、电子设备、存储介质及程序产品，方法包括：获取目标领域的领域标识信息，生成与目标领域相关的系统级提示信息；将系统级提示信息输入至已完成对齐训练的大语言模型中，驱动模型生成与目标领域相关的输入指令集；基于该输入指令集，生成与输入指令集语义相关的回应集，从而形成第一训练数据集；将第一训练数据集中的每一个指令‑回应对，通过多轮对话扩展生成方式，构建具有语义连贯性与丰富上下文的多轮对话训练数据；汇总多轮对话训练数据，构建第二训练数据集。本方法生成的训练数据不依赖人工提示工程、专家撰写或预设种子指令，能够快速适应不同领域业务需求，具备优异的通用性、可迁移性与跨领域扩展性。

技术关键词

训练数据生成方法大语言模型多轮对话系统级生成方式标识综合语义计算机程序指令生成参数字段条目预训练语言模型电子设备风格语义意图样本语义结构

系统为您推荐了相关专利信息

一种基于大语言模型的航天器状态控制方法及装置

航天器状态控制方法大语言模型图谱计算机程序指令

一种基于大数据识别的眼科疾病智能预诊系统和方法

临床检查数据策略预诊方法大数据眼科检查系统

影视作品播放效果预估方法、装置、电子设备及存储介质

大语言模型通信接口电子设备可读存储介质存储器

一种融合预训练与动态微调技术的大语言模型方法及系统

关键词特征微调技术三元组节点动态

基于优化与生成的大语言模型中间状态隐私度量方法及系统

词牌黑盒模型度量大语言模型反演模型