
斯坦福让“GPU高速运转”的新工具火了,比FlashAttention2更快
斯坦福让“GPU高速运转”的新工具火了,比FlashAttention2更快AI算力资源越发紧张的当下,斯坦福新研究将GPU运行效率再提升一波——
AI算力资源越发紧张的当下,斯坦福新研究将GPU运行效率再提升一波——
如何突破 Transformer 的 Attention 机制?中国科学院大学与鹏城国家实验室提出基于热传导的视觉表征模型 vHeat。将图片特征块视为热源,并通过预测热传导率、以物理学热传导原理提取图像特征。相比于基于Attention机制的视觉模型, vHeat 同时兼顾了:计算复杂度(1.5次方)、全局感受野、物理可解释性。
众所周知,大语言模型的训练常常需要数月的时间,使用数百乃至上千个 GPU。以 LLaMA2 70B 模型为例,其训练总共需要 1,720,320 GPU hours。由于这些工作负载的规模和复杂性,导致训练大模型存在着独特的系统性挑战。
Mamba时代来了?
以大规模著称的Transformer,在实际应用中的高算力和高成本,让不少中小型企业望而却步。
Lightning Attention-2 是一种新型的线性注意力机制,让长序列的训练和推理成本与 1K 序列长度的一致。
Hyena处理长序列输入比FlashAttention速度高100倍!最新发布的StripedHyena模型可能成下一代AI架构的新标准?
前段时间,Mistral AI 公布的 Mixtral 8x7B 模型爆火整个开源社区,其架构与 GPT-4 非常相似,很多人将其形容为 GPT-4 的「缩小版」。
来自清华大学的研究者提出了一种新的注意力范式——代理注意力 (Agent Attention)。
这两天,FlashAttention团队推出了新作: 一种给Transformer架构大模型推理加速的新方法,最高可提速8倍。 该方法尤其造福于长上下文LLM,在64k长度的CodeLlama-34B上通过了验证