概述
交付KVCache 缩减技术原型,保证推理准确率下,KVCache数据缩减到原来的30%以下,TTFT 延迟下降≥50%,p99 尾延迟下降≥50%,读放大降低≥50%,GPU 缓存命中率≥80%,在不同数据集和模型上评测平均精度下降≤2%,完成原型与浪潮分布式存储AS13000 对接适配。
需求详情
研究基于相似性的重要token 识别技术,减少关键路径上的数据加载量,保持模型输出精度的同时显著降低首token 延迟,缓解磁盘I/O 性能瓶颈问题。研究基于重要性的KV 重排序技术,避免无关KV对缓存空间的占用,优化存储层的访问效率与缓存利用率。研究基于重要性的缓存管理机制,根据重要性判断机制实现缓存空间的“重要性优先”分配,使有限的扩展缓存资源用于真正关键的KV 数据,减少数据重复传输,提高缓存命中率。交付KVCache 缩减技术原型,保证推理准确率下,KVCache数据缩减到原来的30%以下,TTFT 延迟下降≥50%,p99 尾延迟下降≥50%,读放大降低≥50%,GPU 缓存命中率≥80%,在不同数据集和模型上评测平均精度下降≤2%,完成原型与浪潮分布式存储AS13000 对接适配。