大模型推理KVCache 索引技术及分级缓存系统研究

概述

交付基于KVCache 数据索引匹配技术原型，真实业务数据集上，实现TTFT<200ms,TPOP<40ms，支持上下文长度大于200 万字；在不同数据集和模型上评测的平均精度下降≤2%，完成原型与浪潮分布式存储AS13000 对接适配。

需求详情

研究KVCache 数据索引匹配技术，通过结合KVCache 分级缓存系统，解决缓存匹配准确度差和效率低问题，具体包括语义感知的索引技术研究与基于位置编码的感知技术研究。研究语义感知的索引技术，通过为请求生成高质量的“指纹”，将相似内容映射到相同或相近哈希桶，从而为KVCache 建立高效的“目录”。研究位置编码的感知技术，通过相对位置及位置无关编码等技术，以及缓存与注意力掩码管理机制，确保模型在复用缓存时，主动屏蔽无用信息，聚焦关注的缓存内容。交付基于KVCache 数据索引匹配技术原型，真实业务数据集上，实现TTFT<200ms,TPOP<40ms，支持上下文长度大于200 万字；在不同数据集和模型上评测的平均精度下降≤2%，完成原型与浪潮分布式存储AS13000 对接适配。

已过期：截止至2026-06-30

金额:10万元-30万元