PyTorch官方认可!斯坦福博士新作:长上下文LLM推理速度提8倍 PyTorch官方认可!斯坦福博士新作:长上下文LLM推理速度提8倍 关键词: PyTorch,LLM,AI模型,token 这两天,FlashAttention团队推出了新作: 一种给Transformer架构大模型推理加速的新方法,最高可提速8倍。 该方法尤其造福于长上下文LLM,在64k长度的CodeLlama-34B上通过了验证 来自主题: AI技术研报 4575 点击 2023-10-18 14:43