用于大型语言模型推理的KV缓存压缩与逐出词元恢复方法及系统
申请号:CN202511475772
申请日期:2025-10-16
公开号:CN120975245B
公开日期:2025-12-12
类型:发明专利
摘要
本公开涉及人工智能与自然语言处理技术领域,具体涉及一种用于大型语言模型推理的KV缓存压缩与逐出词元恢复方法及系统,所述方法包括:对于当前Transformer层计算的第i个词元的查询向量,计算其与所有键向量的注意力分数;基于所述注意力分数执行V缓存动态更新操作;针对第i个词元,在基于全部完成V缓存动态更新操作之后,使用V缓存存储池中更新后的值向量集合与预计算的注意力分数部分积P进行注意力计算。上述技术方案解决了现有技术中显存占用与计算效率难以协同优化的技术问题,具有动态管理KV缓存显存占用、保持模型推理质量、提升计算效率的优点。
技术关键词
注意力
动态更新
恢复方法
矩阵
存储池
推理系统
计算机
自然语言
阶段
可读存储介质
指令
参数
解码
模块
处理器