一种存算分离场景下大语言模型GPT-2拉远训练方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种存算分离场景下大语言模型GPT-2拉远训练方法
申请号:CN202511317506
申请日期:2025-09-16
公开号:CN120806176B
公开日期:2025-11-14
类型:发明专利
摘要
本发明提供了一种存算分离场景下大语言模型GPT‑2拉远训练方法,属于人工智能和云计算技术领域。该方法包括:客户端与服务端建立通信连接;客户端对数据进行序列化,经过序列化的数据通过网络传输发送至服务端;服务端主进程创建数据接收线程用于数据接收和发送反馈,服务端接收到的数据被存入共享队列;建立服务端多进程分布式并行训练模型,各进程从共享队列中取数据用于模型训练,数据接收线程在训练的同时可以接收数据,实现训练和接收并行执行;持续进行数据传输和训练任务,直到完成指定的训练轮次或满足终止条件。本发明通过存算分离场景实现大语言模型训练和数据接收并行执行,提高训练效率,提升模型性能。
技术关键词
服务端 建立通信 客户端 进程 队列 注意力 场景 拓扑结构信息 滑动窗口机制 字节流 更新模型参数 分布式训练 显卡设备 台式主机 大语言模型 端口 多层感知机 传送数据 分词
系统为您推荐了相关专利信息
云端 消息传输 因子 语义向量 策略
人工智能模型 客户端 计算机 基准 存储程序代码
国密算法 加密会话 密码算法 可信执行环境 接收端
绒山羊 基因芯片 位点基因型 分子 探针
推广系统 客户 资源分配 任务调度 映射关系建立