摘要
本发明公开了一种多模态大模型的流水线并行训练方法,属于模型训练技术领域。该方法通过计算多模态大模型中每一层的执行时间和显存占用数据,根据各层的执行时间和显存占用数据,计算多模态大模型每一层分配的权重,得到初始阶段划分结果;利用改进的禁忌搜索方法对初始阶段划分结果进行优化,得到优化后的解,将该解作为多模态大模型最终划分结果,利用该最终划分结果对多模态大模型进行流水线并行训练。本发明更加高效地利用显存资源并平衡计算负载,显著减少多模态大模型训练时间,且适用性更强,可以在显存受限等复杂的情况中保持较高的训练吞吐量。