摘要
本公开提供了一种文生图场景下的模型训练方法、装置、设备及介质,属于人工智能领域。该方法包括:构建多个图文样本对;对多个图文样本对中包括的原始文本进行数据扰动,得到编辑文本;对编辑文本和多个图文样本对中包括的原始文本进行文本特征提取,得到编辑文本的第一文本特征和多个图文样本对的第二文本特征;对多个图文样本对中包括的图像进行图像特征提取,得到多个图文样本对的图像特征;以学习文本与图像之间的相关性以及文本与文本之间的相关性为目标,基于第一文本特征、第二文本特征和图像特征进行模型训练,得到文生图场景下用于执行文本编码的模型。本公开确保了文生图任务中基于语义相近的文本能够生成相似的图像。