基于多模态大模型的表观缺陷检测方法及系统

申请号：CN202510258419

申请日期：2025-03-06

公开号：CN119762485B

公开日期：2025-05-16

类型：发明专利

摘要

本发明公开了一种基于多模态大模型的表观缺陷检测方法及系统。首先，设计提示词，利用GPT‑4V自动标注缺陷图像来构建缺陷图像‑掩膜‑文字描述数据集；其次，利用此数据集微调预训练的大语言骨干网络，使其能更好地理解缺陷检测任务；然后，针对编码器各层视觉特征，设计了一种多视觉尺度token组机制，再利用轻量级掩膜解码器输出缺陷检测结果；最后，结合大语言骨干网络的文字描述输出，设计了一种结合缺陷检测掩膜和缺陷文字描述的缺陷检测算法，大幅提高了工业生产环境中的缺陷检测准确率。

技术关键词

表观缺陷检测方法视觉特征多模态编码器掩膜解码器缺陷检测算法图像工业生产环境网络多尺度数据多视觉处理器注意力标签存储装置

系统为您推荐了相关专利信息

一种边海地区复杂场景智能分类方法和系统

场景分类分区训练样本数据空间聚类算法卷积神经网络模型

人体图像分割方法和装置、电子设备及存储介质

编码特征视频帧人体图像分割方法图像编码序列

教学互动抢答定位方法、装置、计算机设备及存储介质

定位方法短时傅里叶变换关键帧计算机可读指令教学

一种针对多尺度可学习查询令牌的确值方法及装置

令牌大语言模型视觉特征生成图像信息图像解码器

一种基于多模态分析的短视频智能剪辑方法及系统

视频智能剪辑方法视觉显著性特征多模态动态时间规整算法语音