面向复杂场景的AI大模型轻量化部署方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
面向复杂场景的AI大模型轻量化部署方法
申请号:CN202511454102
申请日期:2025-10-13
公开号:CN120930709B
公开日期:2025-12-23
类型:发明专利
摘要
本发明提供面向复杂场景的AI大模型轻量化部署方法,涉及边缘计算技术领域,所述方法包括:基于注意力头重要性评分对预训练Transformer网络执行结构化剪枝,根据输入张量熵值动态稀疏化前馈网络激活状态,采用动态混合精度量化,获得剪枝量化后的网络参数;将剪枝量化后的网络参数部署至边缘计算设备,通过异构计算调度器将特征提取算子分配至神经网络处理器,分类算子卸载至多核中央处理器;结合虚拟内存分页机制管理片上存储器,利用直接内存访问控制器实现零拷贝数据传输,输出推理结果张量。本发明实现大模型在资源受限边缘节点的高效和可靠运行。
技术关键词
神经网络处理器 内存访问控制器 服务等级协议 中央处理器 分页机制 时延 资源 静态存储器 动态随机存储器 参数 差分隐私 局部敏感哈希索引 注意力 场景 拉普拉斯噪声 边缘计算技术 分区 拷贝