一种针对多尺度可学习查询令牌的确值方法及装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种针对多尺度可学习查询令牌的确值方法及装置
申请号:CN202510572060
申请日期:2025-04-30
公开号:CN120411730A
公开日期:2025-08-01
类型:发明专利
摘要
本说明书实施例公开了一种针对多尺度可学习查询令牌的确值方法及装置。该方案可以包括:构建多个尺度的可学习查询令牌;所述多个尺度的可学习查询令牌包括用于提取粗粒度视觉信息的第一尺度可学习查询令牌,用于提取中粒度视觉信息的第二尺度可学习查询令牌,以及用于提取细粒度视觉信息的第三尺度可学习查询令牌;采用参数已冻结的多模态大语言模型以及图像数据样本,学习得到所述多个尺度的可学习查询令牌对应的令牌值;在所述可学习查询令牌的学习过程中,针对所述可学习查询令牌的训练目标至少包括:基于所述多个尺度的可学习查询令牌生成的多个尺度的图像的一致性对比损失值满足设定条件。
技术关键词
令牌 大语言模型 视觉特征 生成图像信息 图像解码器 多组图像数据 多尺度 多模态 多层感知机 样本 文本生成图像 信息生成图像 序列 重构 处理器 模块