用于视觉系统的混合模型

申请号：CN202411821993

申请日期：2024-12-11

公开号：CN120259680A

公开日期：2025-07-04

类型：发明专利

摘要

公开了用于从图像生成特征图的方法和系统。该视觉系统包括用于根据神经网络处理该图像以生成该特征图的视觉模型。该视觉模型包括：第一卷积块，该第一卷积块用于对图像数据集进行下采样以获得第一级卷积数据；第二卷积块，该第二卷积块用于对该第一级卷积数据进行下采样以获得第二级卷积数据，其中，该第一卷积块和该第二卷积块中的一者或两者是包括以下项的移动卷积块(MBConv)：第一高斯误差线性单元(GELU)层、逐深度卷积(DWConv)层和调整大小卷积层；以及变换器块(TFB)，该变换器块根据该第二级卷积数据生成所述特征图。

技术关键词

视觉系统文本编码器数据变换器线性单元生成特征多模态测试平台基准图像编码器内核通道分辨率计划注意力节点