一种训练数据生成方法、电子设备、存储介质及程序产品

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种训练数据生成方法、电子设备、存储介质及程序产品
申请号:CN202511101859
申请日期:2025-08-07
公开号:CN120632467A
公开日期:2025-09-12
类型:发明专利
摘要
本申请提供一种训练数据生成方法、电子设备、存储介质及程序产品,方法包括:获取目标领域的领域标识信息,生成与目标领域相关的系统级提示信息;将系统级提示信息输入至已完成对齐训练的大语言模型中,驱动模型生成与目标领域相关的输入指令集;基于该输入指令集,生成与输入指令集语义相关的回应集,从而形成第一训练数据集;将第一训练数据集中的每一个指令‑回应对,通过多轮对话扩展生成方式,构建具有语义连贯性与丰富上下文的多轮对话训练数据;汇总多轮对话训练数据,构建第二训练数据集。本方法生成的训练数据不依赖人工提示工程、专家撰写或预设种子指令,能够快速适应不同领域业务需求,具备优异的通用性、可迁移性与跨领域扩展性。
技术关键词
训练数据生成方法 大语言模型 多轮对话 系统级 生成方式 标识 综合语义 计算机程序指令 生成参数 字段 条目 预训练语言模型 电子设备 风格 语义意图 样本 语义结构
系统为您推荐了相关专利信息
航天器 状态控制方法 大语言模型 图谱 计算机程序指令
临床检查数据 策略 预诊方法 大数据 眼科检查系统
大语言模型 通信接口 电子设备 可读存储介质 存储器
关键词特征 微调技术 三元组 节点 动态
词牌 黑盒模型 度量 大语言模型 反演模型