一种多模态大模型的流水线并行训练方法

申请号：CN202510639216

申请日期：2025-05-19

公开号：CN120179416B

公开日期：2025-08-12

类型：发明专利

摘要

本发明公开了一种多模态大模型的流水线并行训练方法，属于模型训练技术领域。该方法通过计算多模态大模型中每一层的执行时间和显存占用数据，根据各层的执行时间和显存占用数据，计算多模态大模型每一层分配的权重，得到初始阶段划分结果；利用改进的禁忌搜索方法对初始阶段划分结果进行优化，得到优化后的解，将该解作为多模态大模型最终划分结果，利用该最终划分结果对多模态大模型进行流水线并行训练。本发明更加高效地利用显存资源并平衡计算负载，显著减少多模态大模型训练时间，且适用性更强，可以在显存受限等复杂的情况中保持较高的训练吞吐量。

技术关键词

并行训练方法多模态禁忌搜索方法流水线邻域阶段模型训练技术索引数据受限指数列表变量策略定义资源基础参数