一种基于扩散模型的多模态编码对齐方法及装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于扩散模型的多模态编码对齐方法及装置
申请号:CN202411815985
申请日期:2024-12-11
公开号:CN119599027A
公开日期:2025-03-11
类型:发明专利
摘要
本发明涉及一种基于扩散模型的多模态编码对齐方法及装置,属于多模态编码对齐技术领域,该方法包括:获取待进行语义编码的多模态数据,使用预先训练的多模态编码对齐模型对待进行语义编码的多模态数据进行条件扩散生成文本编码;将文本编码输入大模型解码器或作为RAG编码进行下游任务;其中,生成的文本编码作为多模态数据语义编码使用,与文本编码语义对齐。本发明中预先训练的多模态编码对齐模型利用扩散模型可学习的潜在多模态数据编码信息,通过一种扩散模型结构同时完成多模态的语义编码,同时使用大语言模型编码作为多任务优化方向,使得预先训练的多模态模型编码对齐模型结果更试用于下游任务。
技术关键词
对齐方法 多模态 文本 噪声 大语言模型 多任务 数据编码 解码器 对齐技术 可读存储介质 预训练模型 对齐装置 语义 计算机 输入模块 程序 指令 存储器