摘要
本申请提供了一种零样本图像分类系统及方法,所述系统包括教师模型和学生模型,两者架构相同,均包括:视觉编码器、语义编码器、视觉‑语义对齐模块和零样本分类模块;教师模型的视觉编码器以CNN和Transformer级联的方式构建;选取BERT网络作为教师模型的语义编码器;基于跨模态注意力机制构建教师模型和学生模型的视觉‑语义对齐模块;采用全连接层作为教师模型和学生模型的零样本分类模块;学生模型的视觉编码器采用轻量化EnviroNet网络构建;学生模型的语义编码器采用Core‑BER网络构建。本申请的优势在于:在零样本设置下,能保持较高未见类别分类性能,同时降低模型复杂度,更有利于实际设备上的部署。