用于量化的多模态大模型的指令微调方法、电子设备和存储介质

申请号：CN202411002426

申请日期：2024-07-25

公开号：CN119089967A

公开日期：2024-12-06

类型：发明专利

摘要

本发明公开一种用于量化的多模态大模型的指令微调方法，包括：步骤1、量化感知的尺度学习；步骤2、用于尺度学习的多模态热身策略；步骤3、使用量化后的多模态大模型进行特定任务学习。本发明采用量化感知的尺度学习，能够自适应地最小化异常位置的量化误差，尤其在某些位置激活表现为异常值特征的情况下能够有效地减少了每个量化组内的量化误差，从而解决现有技术对于离群点造成的量化误差无法有效处理的问题；本发明通过均匀量化的方法，采用权重裁剪来缓解语言任务中发生的量化困难；本发明在迭代达到一定次数后，将多模态指令数据集替换为混合数据集，有助于在保持多模态任务性能的同时，逐步引入语言数据，避免过度拟合。

技术关键词

微调方法量化误差梯度下降算法图像编码器指令多模态文本线性数据电子设备计算机离群点可读存储介质存储器策略因子处理器定义参数

系统为您推荐了相关专利信息

语音识别方法、装置、电子设备和存储介质

文本声纹特征语音识别方法分段数据存储

一种构网型异构电源接入直流系统稳定控制方法及系统

直流系统稳定控制方法双馈风机异构状态反馈信号

一种工控网异常访问检测的数据安全防范方法

控制器防范方法数据安全链路 Apriori算法

面向晶圆级测试的多探针协同接触控制与调节方法及系统

运动状态评估预测控制算法精确定位控制运动特征探针测试系统

一种准确识别智能耳机控制指令的方法与系统

时钟偏移量智能耳机神经网络分类列表主机端