摘要
本发明公开了一种面向边缘计算的轻量化大模型智能客服部署方法,涉及人工智能与边缘计算技术领域。该方法包括:获取预训练的大语言模型,基于彩票假说进行剪枝,得到赢家票子网络;将其稀疏结构重映射为V:N:M结构化稀疏格式,并与权重及掩码共同加载至片上存储器;在变换器层插入侧枝出口并进行token剪枝;监控困惑度与置信度,高负载时动态恢复不超过5%的被剪枝权重;对低置信度或敏感token,上传其8位量化隐藏态至云端大模型进行协同推理,结果与本地推理输出合并。本发明降低了边缘设备推理延迟与通信开销,提高了智能客服系统在低算力环境下的响应效率和部署经济性。