用于量化的多模态大模型的指令微调方法、电子设备和存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
用于量化的多模态大模型的指令微调方法、电子设备和存储介质
申请号:CN202411002426
申请日期:2024-07-25
公开号:CN119089967A
公开日期:2024-12-06
类型:发明专利
摘要
本发明公开一种用于量化的多模态大模型的指令微调方法,包括:步骤1、量化感知的尺度学习;步骤2、用于尺度学习的多模态热身策略;步骤3、使用量化后的多模态大模型进行特定任务学习。本发明采用量化感知的尺度学习,能够自适应地最小化异常位置的量化误差,尤其在某些位置激活表现为异常值特征的情况下能够有效地减少了每个量化组内的量化误差,从而解决现有技术对于离群点造成的量化误差无法有效处理的问题;本发明通过均匀量化的方法,采用权重裁剪来缓解语言任务中发生的量化困难;本发明在迭代达到一定次数后,将多模态指令数据集替换为混合数据集,有助于在保持多模态任务性能的同时,逐步引入语言数据,避免过度拟合。
技术关键词
微调方法 量化误差 梯度下降算法 图像编码器 指令 多模态 文本 线性 数据 电子设备 计算机 离群点 可读存储介质 存储器 策略 因子 处理器 定义 参数
系统为您推荐了相关专利信息
文本 声纹特征 语音识别方法 分段 数据存储
直流系统 稳定控制方法 双馈风机 异构 状态反馈信号
控制器 防范方法 数据安全 链路 Apriori算法
运动状态评估 预测控制算法 精确定位控制 运动特征 探针测试系统
时钟偏移量 智能耳机 神经网络分类 列表 主机端