基于共享索引的视觉令牌生成方法、装置、设备及介质

申请号：CN202511492012

申请日期：2025-10-20

公开号：CN120953425A

公开日期：2025-11-14

类型：发明专利

摘要

本发明涉及人工智能技术领域，可应用于金融科技及医疗健康等业务场景中，公开了一种基于共享索引的视觉令牌生成方法、装置、设备及介质，包括：获取输入图像并经语义编码器与像素编码器提取语义特征和像素特征；计算各特征与其码本的距离并加权求和确定共享索引；利用共享索引从码本中检索量化特征；分别用像素解码器与语义解码器生成重构图像和重构语义特征；基于重构结果联合优化编码器、码本与解码器；以优化后组件对目标任务图像生成统一视觉令牌序列。本发明通过双流特征提取、共享映射量化及联合损失优化，能够在视觉令牌中同时保留全局语义信息与局部像素细节，使模型既具备精准理解能力，又能生成高保真图像，提高理解与生成任务的性能。

技术关键词

像素索引解码器令牌生成方法生成重构图像编码器视觉生成程序高层语义特征存储结构数据输出特征生成装置计算机设备生成对抗网络