世界首个「AI CUDA工程师」诞生!AI自己写代码优化CUDA内核,性能狂飙100倍
世界首个「AI CUDA工程师」诞生!AI自己写代码优化CUDA内核,性能狂飙100倍Transformer论文八位作者之一Llion Jones创立的Sakana AI发布重磅成果——全球首个「AI CUDA工程师」!它能将PyTorch代码自动转换为高度优化的CUDA内核,速度比PyTorch原生实现快10-100倍。
Transformer论文八位作者之一Llion Jones创立的Sakana AI发布重磅成果——全球首个「AI CUDA工程师」!它能将PyTorch代码自动转换为高度优化的CUDA内核,速度比PyTorch原生实现快10-100倍。
硬件媒体Tom‘s Hardware带来开年最新热议:DeepSeek甚至绕过了CUDA,使用更底层的编程语言做优化。这一次是DeepSeek-V3论文中的更多细节,被人挖掘出来。
近日,来自 CMU 的 Catalyst Group 团队发布了一款 PyTorch 算子编译器 Mirage,用户无需编写任何 CUDA 和 Triton 代码就可以自动生成 GPU 内核,并取得更佳的性能。
32GB GDDR7内存,CUDA核心数21760个——
短短几天内,AMD连续宣布两项颠覆性的转变
用英伟达的GPU,但可以不用CUDA?PyTorch官宣,借助OpenAI开发的Triton语言编写内核来加速LLM推理,可以实现和CUDA类似甚至更佳的性能。
纯国产GPU的万卡集群,它来了! 而且还是国内首个全功能GPU,兼容CUDA的那种。
近日,美国一家 web3 开发公司的创始工程师之一 Adam Majmudar 分享了他「手搓 GPU」成功的经历,引发了网友们的一大片点赞。令人惊讶的是,他仅用两周时间就完成了这一脑力壮举。在 Twitter/X 的主题帖子中,Majmudar 进行了直播,一步步带我们回顾了整个过程。
CUDA 是英伟达的壁垒, 推理场景是算力未来的重点
作为大模型的「记忆体」,向量数据库重要性不言而喻。GTC 2024上,全球首个GPU加速向量数据库诞生了,由英伟达CUDA加持,性能实现50倍提升。5年前上海厂房里的一行代码,竟开启了一个时代。