预训练视觉语言模型的方法、装置、设备及存储介质

申请号：CN202510182504

申请日期：2025-02-18

公开号：CN120123766A

公开日期：2025-06-10

类型：发明专利

摘要

本公开提供了一种预训练视觉语言模型的方法、装置、设备及存储介质，属于计算机技术领域。该方法通过从样本图像中分割出样本对象，从样本文本文档中采样得到文本片段，即可根据每个文本片段中包括的至少一个实体名称与样本对象之间的对应关系，将文本片段与包括样本对象的对象图像进行跨模态对齐，从而不需要大规模标注即可得到质量较高的图像‑文本对数据。上述方案极大的降低了训练数据的获取成本，提高了预训练视觉语言模型的效率。

技术关键词

前馈神经网络样本文本对象视觉图像分割掩码矩阵电子设备可执行程序代码实体处理器可读存储介质数据处理单元计算机程序产品分词跨模态语义参数