基于分布式集群的模型训练方法、装置、电子设备及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于分布式集群的模型训练方法、装置、电子设备及介质
申请号:CN202410842703
申请日期:2024-06-26
公开号:CN118863013A
公开日期:2024-10-29
类型:发明专利
摘要
本申请实施例提供基于分布式集群的模型训练方法、装置、电子设备及介质,由于任一目标算力组件在与其它目标算力组件配合训练目标模型时若向其它目标算力组件发送数据,先将待发送数据转换成设定数据格式并发送,这使得不同目标算力组件传递过来的不同格式的数据统一转换成同一格式,这实现异构算力资源场景下目标模型的训练,这使得目标模型的训练与部署不再局限于同构算力资源的分布式集群中,这提高了目标模型的适用性。此外,依据各目标算力组件的算力评估值来为各目标算力组件分配训练任务,这在任务分配时充分考虑不同类别的算力组件的算力差异,能够使各目标算力组件的算力被最大化利用,避免了算力资源的浪费。
技术关键词
模式 计算机程序指令 数据格式 管理服务器 模型训练方法 集群 策略 训练样本集 流水线 参数 模型训练装置 电子设备 处理器 可读存储介质 资源 模块 存储器