PyTorch造大模型“加速包”,不到1000行代码提速10倍!英伟达科学家:minGPT以来最好的教程式repo之一
PyTorch造大模型“加速包”,不到1000行代码提速10倍!英伟达科学家:minGPT以来最好的教程式repo之一PyTorch团队让大模型推理速度加快了10倍。且只用了不到1000行的纯原生PyTorch代码!
来自主题: AI资讯
7814 点击 2023-12-02 18:43
PyTorch团队让大模型推理速度加快了10倍。且只用了不到1000行的纯原生PyTorch代码!
今天,备受广大开发者欢迎的深度学习框架Keras,正式更新了3.0版本,实现了对PyTorch和JAX的支持,同时性能提升,还能轻松实现大规模分布式训练。
Buddy Compiler 端到端 LLaMA2-7B 推理示例已经合并到 buddy-mlir仓库[1]主线。我们在 Buddy Compiler 的前端部分实现了面向 TorchDynamo 的第三方编译器,从而结合了 MLIR 和 PyTorch 的编译生态。
这两天,FlashAttention团队推出了新作: 一种给Transformer架构大模型推理加速的新方法,最高可提速8倍。 该方法尤其造福于长上下文LLM,在64k长度的CodeLlama-34B上通过了验证
AMD 的 Ryzen AI for Windows 是该公司基于 Zen 4 微架构的 Ryzen 7040 系列 APU 中内置的一个硬件单元。AMD 的 Vitis AI 为人工智能推理提供了强大的工具集,可与 TensorFlow、PyTorch 和 ONNX 等流行框架无缝集成。
目前,我国 AI 框架行业仍处于起步阶段,市场参与者主要有两大派系,分别是国外的 Google-TensorFlow 和 Meta-PyTorch 为代表的双寡头,以及国内以华为 -Mindspore 和百度 PaddlePaddle 为代表的领先企业。