数据蒸馏方法和装置、电子设备及存储介质

申请号：CN202510729636

申请日期：2025-05-30

公开号：CN120670842A

公开日期：2025-09-19

类型：发明专利

摘要

本申请实施例提供了一种数据蒸馏方法和装置、电子设备及存储介质，属于人工智能技术领域。该方法包括：基于原始视觉语言数据集对原始基准模型进行训练得到目标基准模型；基于候选数据集对原始学生模型进型训练得到目标学生模型；对目标基准模型和目标学生模型进行对比学习得到模型学习差异数据；基于模型学习差异数据对候选数据集的图像样本进行像素调整得到目标图像；基于模型学习差异数据对候选数据集的文本样本进行文本表示调整得到目标文本；基于目标图像和目标文本构建目标视觉语言数据集。本申请可应用于金融科技、医疗科技等需要大量视觉语言数据的业务系统中，通过数据蒸馏技术对大量视觉语言数据进行蒸馏，能够提高数据蒸馏的准确性。

技术关键词

文本数据学生样本基准嵌入特征视觉参数蒸馏方法模型训练模块矩阵电子设备可读存储介质人工智能技术蒸馏装置图像像素业务系统