一种基于分布正则化的跨模态文本生成图像方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于分布正则化的跨模态文本生成图像方法
申请号:CN202510408998
申请日期:2025-04-02
公开号:CN120355803A
公开日期:2025-07-22
类型:发明专利
摘要
本发明公开一种基于分布正则化的跨模态文本生成图像方法。首先,文本编码器对COCO等数据集的文本进行编码,得到单词特征向量和全局句子特征向量。其次,特征向量经过三个阶段生成器,生成不同分辨率图像。再次,在判别器模块中引入变分自编码器,对生成图像进行分布正则化,判别器基于编码后的图像进行真伪判断。然后,将真实图像和生成的图像作为输入计算判别器的损失,经过多次迭代优化模型。最后,使用IS和FID指标对训练的最优图像模型进行评估,衡量生成图像的质量和模型性能。经实验验证,该方法可有效基于文本的语义生成对应图像,有效解决判别模型难以区分输入图像的真伪问题。本发明所得到的指标数据表现均优于原始模型AttnGAN。
技术关键词
文本生成图像方法 生成对抗网络 编码器模块 文本编码器 采样模块 分类器 解码器 图像重建 分辨率 阶段 语义 上采样 逻辑 参数