用于量化的多模态大模型的指令微调方法、电子设备和存储介质
申请号:CN202411002426
申请日期:2024-07-25
公开号:CN119089967A
公开日期:2024-12-06
类型:发明专利
摘要
本发明公开一种用于量化的多模态大模型的指令微调方法,包括:步骤1、量化感知的尺度学习;步骤2、用于尺度学习的多模态热身策略;步骤3、使用量化后的多模态大模型进行特定任务学习。本发明采用量化感知的尺度学习,能够自适应地最小化异常位置的量化误差,尤其在某些位置激活表现为异常值特征的情况下能够有效地减少了每个量化组内的量化误差,从而解决现有技术对于离群点造成的量化误差无法有效处理的问题;本发明通过均匀量化的方法,采用权重裁剪来缓解语言任务中发生的量化困难;本发明在迭代达到一定次数后,将多模态指令数据集替换为混合数据集,有助于在保持多模态任务性能的同时,逐步引入语言数据,避免过度拟合。
技术关键词
微调方法
量化误差
梯度下降算法
图像编码器
指令
多模态
文本
线性
数据
电子设备
计算机
离群点
可读存储介质
存储器
策略
因子
处理器
定义
参数