2.5%KV缓存保持大模型90%性能,大模型金字塔式信息汇聚模式探秘|开源
2.5%KV缓存保持大模型90%性能,大模型金字塔式信息汇聚模式探秘|开源用KV缓存加速大模型的显存瓶颈,终于迎来突破。 北大、威斯康辛-麦迪逊、微软等联合团队提出了全新的缓存分配方案,只用2.5%的KV cache,就能保持大模型90%的性能。 这下再也不用担心KV占用的显存容量过高,导致显卡不够用了。
来自主题: AI技术研报
6597 点击 2024-06-13 21:21
搜索
用KV缓存加速大模型的显存瓶颈,终于迎来突破。 北大、威斯康辛-麦迪逊、微软等联合团队提出了全新的缓存分配方案,只用2.5%的KV cache,就能保持大模型90%的性能。 这下再也不用担心KV占用的显存容量过高,导致显卡不够用了。