一种面向大模型训练的GPU集群算力优化架构

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种面向大模型训练的GPU集群算力优化架构
申请号:CN202510495318
申请日期:2025-04-21
公开号:CN120448030A
公开日期:2025-08-08
类型:发明专利
摘要
一种面向大模型训练的GPU集群算力优化架构,算力资源管理模块用于实时监测并管理GPU集群中各GPU的算力资源状态,任务调度模块用于根据训练任务的需求分配GPU资源,算力优化模块用于在任务执行过程中对GPU集群的算力进行动态优化,结果反馈模块用于收集并分析优化后的算力使用情况,以调整后续的任务调度策略。本发明通过实时监测并管理GPU集群的算力资源状态,根据训练任务的需求动态分配GPU资源,并在任务执行过程中对GPU集群的算力进行动态优化,有效提高了GPU集群的算力利用效率,降低了训练成本。
技术关键词
集群 任务调度策略 任务调度算法 需求预测模型 故障预测模型 自定义任务调度 数据分析单元 预警模块 隐私保护机制 资源状态信息 分配单元 动态 支持多任务 高精度传感器 历史故障数据 监测单元