大模型推理KVCache 索引技术及分级缓存系统研究
概述
交付基于KVCache 数据索引匹配技术原型,真实业务数据集上,实现TTFT<200ms,TPOP<40ms,支持上下文长度大于200 万字;在不同数据集和模型上评测的平均精度下降≤2%,完成原型与浪潮分布式存储AS13000 对接适配。
需求详情
研究KVCache 数据索引匹配技术,通过结合KVCache 分级缓存系统,解决缓存匹配准确度差和效率低问题,具体包括语义感知的索引技术研究与基于位置编码的感知技术研究。研究语义感知的索引技术,通过为请求生成高质量的“指纹”,将相似内容映射到相同或相近哈希桶,从而为KVCache 建立高效的“目录”。研究位置编码的感知技术,通过相对位置及位置无关编码等技术,以及缓存与注意力掩码管理机制,确保模型在复用缓存时,主动屏蔽无用信息,聚焦关注的缓存内容。交付基于KVCache 数据索引匹配技术原型,真实业务数据集上,实现TTFT<200ms,TPOP<40ms,支持上下文长度大于200 万字;在不同数据集和模型上评测的平均精度下降≤2%,完成原型与浪潮分布式存储AS13000 对接适配。
征集中
金额:10万元-30万元