一种面向低代码开发的大模型训练方法、系统、设备及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种面向低代码开发的大模型训练方法、系统、设备及介质
申请号:CN202511575024
申请日期:2025-10-31
公开号:CN121031672A
公开日期:2025-11-28
类型:发明专利
摘要
本申请公开了一种面向低代码开发的大模型训练方法、系统、设备及介质,主要涉及大模型训练技术领域,用以解决现有方案无法有效捕捉代码中的语法层次关系和块结构、在处理具有复杂作用域的代码时容易导致变量误引用和作用域错误、现有的微调方法忽视模型的预训练知识,导致训练过程不稳定,且收敛速度较慢的问题。包括:将token序列的输入数据、输出代码对应的抽象语法树、层次化代码序列作为样本数据,构建训练集;将训练集中的样本数据对应的样本代码进行数据增强操作;解冻编码器的自注意力层参数,设置输入数据与代码序列的对齐损失函数为目标函数;完成自注意力层参数调整后,解冻解码器全部参数,并采用对抗性损失,进行大模型的调整。
技术关键词
模型训练方法 抽象语法树 解码器 注意力 对抗性 掩码矩阵 序列 构建训练集 非易失性计算机存储介质 样本 参数 数据 编码器 Softmax函数 模型训练设备 模型训练技术 编码向量 模型训练系统 深度优先遍历