多模态大模型推理KVCache 缩减技术研究

概述

交付KVCache 缩减技术原型，保证推理准确率下，KVCache数据缩减到原来的30%以下，TTFT 延迟下降≥50%，p99 尾延迟下降≥50%，读放大降低≥50%，GPU 缓存命中率≥80%，在不同数据集和模型上评测平均精度下降≤2%，完成原型与浪潮分布式存储AS13000 对接适配。

需求详情

研究基于相似性的重要token 识别技术，减少关键路径上的数据加载量，保持模型输出精度的同时显著降低首token 延迟，缓解磁盘I/O 性能瓶颈问题。研究基于重要性的KV 重排序技术，避免无关KV对缓存空间的占用，优化存储层的访问效率与缓存利用率。研究基于重要性的缓存管理机制，根据重要性判断机制实现缓存空间的“重要性优先”分配，使有限的扩展缓存资源用于真正关键的KV 数据，减少数据重复传输，提高缓存命中率。交付KVCache 缩减技术原型，保证推理准确率下，KVCache数据缩减到原来的30%以下，TTFT 延迟下降≥50%，p99 尾延迟下降≥50%，读放大降低≥50%，GPU 缓存命中率≥80%，在不同数据集和模型上评测平均精度下降≤2%，完成原型与浪潮分布式存储AS13000 对接适配。

已过期：截止至2026-06-30

金额:10万元-30万元