基于语义引导的多标签识别跨模态表示系统及方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于语义引导的多标签识别跨模态表示系统及方法
申请号:CN202511403593
申请日期:2025-09-29
公开号:CN120877010A
公开日期:2025-10-31
类型:发明专利
摘要
本发明为基于语义引导的多标签识别跨模态表示系统及方法,属于人工智能领域。该系统由特征编码器、图注意力网络、视觉语言特征重建模块、视觉‑语义特征匹配模块、多标签预测模块构成。该方法包含以下步骤:S1:采集图像和文本数据;S2:文本特征编码器和图像特征编码器提取图像特征和文本特征;S3:对文本特征进行多标签之间的语义关联增强;S4:对图像特征和文本特征进行融合;S5:对融合特征和改进文本特征进行融合;S6:视觉‑语义特征匹配模块对齐重建融合特征与文本特征,计算余弦相似度;S7:利用多标签分类器对匹配余弦相似度进行分类,得到图像对应的多分类标签。本发明方法能够有效地在开放场景中进行多标签识别,提高预测准确性。
技术关键词
编码器 跨模态 融合特征 图像 语义特征 匹配模块 视觉特征 多标签分类器 矩阵 注意力机制 文本特征向量 双曲正切函数 深度学习网络