一种基于分割万物模型和前融合的指令分割方法和装置

申请号：CN202410822470

申请日期：2024-06-25

公开号：CN118674929A

公开日期：2024-09-20

类型：发明专利

摘要

本发明涉及计算机视觉技术领域，提供了一种基于分割万物模型和前融合的指令分割方法和装置。包括：选取前融合的多模态特征提取编码器，将文本提示与低分辨率图像进行前期联合编码处理；构造嵌入维度投影层，使用嵌入维度投影层转换联合编码后的多模态特征至统一的嵌入空间；优化提示词编码器适配性。本发明通过使用前融合的多模态特征提取编码器，使不同模态的输入在早期阶段进行融合，从而能够更早地整合不同模态的信息，提高模型对指令内容的理解能力和分割精度，即提高模型的性能，并且通过优化提示词编码器适配性，以保持输入和输出的一致序列长度，从而确保实际训练和推理的不稳定，并实现模型的轻量化。

技术关键词

分割方法万物模态特征多模态计算机可执行指令特征提取器文本分割装置投影模块编码模块解码器计算机视觉技术图像编码器计算机存储介质序列