字节万卡集群技术细节公开:2天搞定GPT-3训练,算力利用率超英伟达Megatron-LM
字节万卡集群技术细节公开:2天搞定GPT-3训练,算力利用率超英伟达Megatron-LM随着对Sora技术分析的展开,AI基础设施的重要性愈发凸显。
来自主题: AI技术研报
7030 点击 2024-03-01 13:33
随着对Sora技术分析的展开,AI基础设施的重要性愈发凸显。
世界上最快超算集群Frontier,用8%的GPU训练出了一个万亿级规模的大模型,而且是在AMD硬件平台之上完成。研究人员将训练的细节和克服的困难写成了一篇论文,展示了如何用非英伟达的生态完成大模型训练的技术框架和细节。
在过去的一段时间里,“AI-native”成为所有工具的一个显著探索趋势,不论是算力集群的智算中心,还是数据库侧的向量数据库,再或者是不断进化的算法,都在以一种更适配大模型架构的方式被推演出来。
国内首个以国产全功能GPU为底座的大规模算力集群,正式落地了!这便是来自摩尔线程的KUAE智算中心,全国产千卡千亿模型训练平台。
西北工业大学光电与智能研究院李学龙教授和同事们在机器交互方面取得创新进展:基于国产大模型,研发了 “群聊式”无人机控制框架,给每架无人机装上了大脑,让无人机集群在语言沟通中动态协同,实现了开放环境下“人机”和“多机”的对话交互,打破人类和机器的交互壁垒
据 @SawyerMerritt 报道,特斯拉将于周一推出备受瞩目的超级计算机。这台机器将用于各种人工智能(AI)应用,该集群功能强大,可以用于要求苛刻的高性能计算(HPC)工作负载。基于 Nvidia H100 的超级计算机将成为世界上最强大的集群之一。