AI资讯新闻榜单内容搜索-GPU

训练一次经历 419 次意外故障，英伟达 GPU 也差点玩不转 405B 模型，全靠 Meta 工程师后天救场

一半以上的故障都归因于 GPU 及其高带宽内存。

来自主题: AI资讯

6780 点击 2024-07-29 17:47

CPU、GPU的互连从1米飙至100米，英特尔：你相信光吗？

英特尔用“光”，突破了大模型时代棘手的算力难题—— 推出业界首款全集成OCI（光学计算互连）芯片。

来自主题: AI资讯

8593 点击 2024-07-27 19:46

从裸机到700亿参数大模型，这里有份教程，还有现成可用的脚本

我们知道 LLM 是在大规模计算机集群上使用海量数据训练得到的，机器之心曾介绍过不少用于辅助和改进 LLM 训练流程的方法和技术。而今天，我们要分享的是一篇深入技术底层的文章，介绍如何将一堆连操作系统也没有的「裸机」变成用于训练 LLM 的计算机集群。

来自主题: AI技术研报

10594 点击 2024-07-24 16:57

英伟达官宣全面开源GPU内核驱动，两年迭代至最强版本！下一代Blackwell全用开源

英伟达全面转向开源GPU内核模块，历史将再次见证Linux社区开源的力量。

来自主题: AI资讯

6346 点击 2024-07-18 16:36

Mamba一作再祭神作，H100利用率飙至75%！FlashAttention三代性能翻倍，比标准注意力快16倍

时隔一年，FlashAttention又推出了第三代更新，专门针对H100 GPU的新特性进行优化，在之前的基础上又实现了1.5～2倍的速度提升。

来自主题: AI技术研报

10846 点击 2024-07-12 16:57

红杉：重金购入GPU后，AI行业收入缺口达到5000亿美元

囤 GPU 真的像修铁路一样，是一项划算的投资吗？

来自主题: AI资讯

9635 点击 2024-07-06 19:07

首个国产全功能GPU的万卡集群来了！“中国英伟达”出品

纯国产GPU的万卡集群，它来了！而且还是国内首个全功能GPU，兼容CUDA的那种。

来自主题: AI资讯

9341 点击 2024-07-05 00:50

AI主战场，万卡是标配：国产GPU万卡万P集群来了！

Scaling Law 持续见效，让算力就快跟不上大模型的膨胀速度了。「规模越大、算力越高、效果越好」成为行业圭皋。主流大模型从百亿跨越到 1.8 万亿参数只用了1年，META、Google、微软这些巨头也从 2022 年起就在搭建 15000 卡以上的超大集群。「万卡已然成为 AI 主战场的标配。」

来自主题: AI资讯

8392 点击 2024-07-05 00:11

全球AI面临6000亿美元难题，人工智能泡沫正在接近临界点！

AI基础设施的巨额投资，和实际的AI生态系统实际收入之间，差距已经到了不可思议的地步。曾经全球AI面临的2000亿美元难题，如今已经翻成了6000亿美元。

来自主题: AI资讯

1691 点击 2024-07-04 16:28

全美TOP 5机器学习博士：痛心，实验室H100数量为0！同实验室博士用GPU得靠抢

全美TOP 5的机器学习博士痛心发帖自曝，自己实验室里H100数目是0！这也引起了ML社区的全球网友大讨论。显然，相比普林斯顿、哈佛这样动辄三四百块H100的GPU大户，更常见的是GPU短缺的「穷人」。同一个实验室的博士，甚至时常会出现需要争抢GPU的情况。

来自主题: AI资讯

6246 点击 2024-06-29 18:21