多模态图像文本多标签分类方法、系统、设备及存储介质
申请号:CN202411978394
申请日期:2024-12-30
公开号:CN119762892A
公开日期:2025-04-04
类型:发明专利
摘要
本发明提供了多模态图像文本多标签分类方法、系统、设备及存储介质,该方法包括:构建多模态多标签二分类模型,进行权重合并推理优化;基于笔记数据库进行数据标注,生成高质量数据集;将高质量数据集输入多模态多标签二分类模型中的图文基座模型以提取特征,获得文本信息增强特征和图像信息增强特征;基于文本信息增强特征和图像信息增强特征获得增强后的图像文本特征;基于增强后的图像文本特征对图像进行多标签分类。本发明能够更好地理解图像和文本之间的关系,从而提升模型对图文信息联合表示的能力,增强了模型在多模态任务中的性能,提升多标签分类的整体效能。
技术关键词
多标签分类方法
二分类模型
多模态
文本
图像
多标签分类系统
数据
图文
兴趣点
分类设备
整体效能
处理器
线性
爬虫
基座
模块
可读存储介质
键值
程序