一种基于两阶段渐进融合编码的图像描述生成方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于两阶段渐进融合编码的图像描述生成方法及系统
申请号:CN202511564814
申请日期:2025-10-30
公开号:CN121033852A
公开日期:2025-11-28
类型:发明专利
摘要
本发明公开了一种基于两阶段渐进融合编码的图像描述生成方法及系统,方法包括:在第一阶段,将通过图像编码器CLIP ViT提取的特征逐步插值到对应的图像编码器Swin Transformer提取的特征中,以细化语义表征;在第二阶段,提出一个全局感知工作空间模块,该工作空间通过加权融合集成来自图像编码器Swin Transformer与图像编码器CLIP ViT的特征;并通过采用长度无关的扩展模块高效处理可变长度的输入;解决了现有方法依赖单一视觉编码器导致的特征表征碎片化和视觉语言对齐不理想的问题,在图像描述生成的准确性和语义表达丰富度方面具有突出性能。
技术关键词
图像编码器 扩展模块 空间模块 两阶段 生成方法 编码特征 生成系统 融合特征 生成自然语言 视觉特征 序列 文本 语义特征 多头注意力机制 动态 输入解码器