摘要
本发明公开了一种基于NARX模型的大模型训练慢节点检测方法,包括:模型的准备,通过实际的训练获取一个NARX模型;模型的应用,通过使用训练好的模型对实际训练过程中的节点进行检测,发现异常,并根据模型的实际情况进行自动化处理。本发明通过节点参数面和存储面网卡的input和ouput数据训练一个对应框架和模型的NARX模型,然后将训练好的NARX模型用于分布式模型训练中,通过对训练过程中各节点多网卡数据的实时检测,进行网络异常发现,进而预测节点异常,并根据模型训练的实际情况对异常节点进行处理,提升慢节点的发现时间和定位,最终提升大模型的训练效率,降低因节点异常导致的重复训练等卡时浪费,当流量出现异常第一时间就能识别到。