斯坦福让“GPU高速运转”的新工具火了,比FlashAttention2更快
斯坦福让“GPU高速运转”的新工具火了,比FlashAttention2更快AI算力资源越发紧张的当下,斯坦福新研究将GPU运行效率再提升一波——
来自主题: AI技术研报
11631 点击 2024-06-06 18:02
AI算力资源越发紧张的当下,斯坦福新研究将GPU运行效率再提升一波——
Hyena处理长序列输入比FlashAttention速度高100倍!最新发布的StripedHyena模型可能成下一代AI架构的新标准?
这两天,FlashAttention团队推出了新作: 一种给Transformer架构大模型推理加速的新方法,最高可提速8倍。 该方法尤其造福于长上下文LLM,在64k长度的CodeLlama-34B上通过了验证