摘要
本说明书实施例公开了一种针对多尺度可学习查询令牌的确值方法及装置。该方案可以包括:构建多个尺度的可学习查询令牌;所述多个尺度的可学习查询令牌包括用于提取粗粒度视觉信息的第一尺度可学习查询令牌,用于提取中粒度视觉信息的第二尺度可学习查询令牌,以及用于提取细粒度视觉信息的第三尺度可学习查询令牌;采用参数已冻结的多模态大语言模型以及图像数据样本,学习得到所述多个尺度的可学习查询令牌对应的令牌值;在所述可学习查询令牌的学习过程中,针对所述可学习查询令牌的训练目标至少包括:基于所述多个尺度的可学习查询令牌生成的多个尺度的图像的一致性对比损失值满足设定条件。