摘要
本申请提供一种多模态理解大模型的推理方法、装置、设备及存储介质,涉及计算机技术领域。该方法包括:获取第一模态数据和第二模态数据;利用多模态编码器中的第一模态编码器对第一模态数据进行编码,获得第一tokens;利用多模态编码器中的第二模态编码器对第二模态数据进行编码,获得第二tokens;通过tokens选择器从第二tokens中选择第一tokens关注的目标第二tokens;通过连接器将第一tokens和目标第二tokens进行对齐;通过大语言模型对第一tokens和对齐后的目标第二tokens进行推理,获得推理结果。本申请实施例利用tokens选择器对第二tokens进行压缩,降低推理的tokens长度和对计算资源的需求,提高推理效率。