摘要
本发明涉及大语言模型技术领域,具体是涉及一种混合专家模型的训练方法、装置、设备及介质。本发明每次迭代过程中,本地节点会产生用于激活远程节点群上的子网络的原始激活值,本发明压缩原始激活值,得到压缩激活值,之后本地节点将压缩激活值发送至远程节点群。每次迭代之后,本地节点生成模型原始梯度并压缩该梯度,以得到压缩梯度,再把压缩梯度发送至远程节点群,远程节点群基于压缩激活值和压缩梯度继续迭代训练混合专家模型。本发明在本地节点和远程节点群之间通信的是压缩梯度和压缩激活值,而不是模型原始梯度和原始激活值,压缩梯度和压缩激活值相对模型原始梯度和原始激活值减少了通信的数量,从而提高了混合专家模型的训练速度。