一种基于逐步群组相对策略优化的多模态检索增强生成方法

申请号：CN202510680822

申请日期：2025-05-26

公开号：CN120561347A

公开日期：2025-08-29

类型：发明专利

摘要

本发明属于人工智能与多模态大模型推理增强技术领域，公开一种基于逐步群组相对策略优化的多模态检索增强生成方法。引入逐步推理轨迹构建机制，将原始问题拆解为若干子问题，每一步均结合推理历史和当前信息需求自主生成新的检索查询并选择最合适的知识源进行证据检索；推理过程中每一步决策和答案均获得细粒度奖励信号。本发明采用群组相对策略优化方法，将每个推理步骤的查询质量、知识库路由准确性、答案内容的格式合规性与最终答案的准确性作为逐步奖励联合建模，通过全局和局部多重反馈信号优化模型参数。该方法在多类多模态开放域问答、复杂推理等任务上，显著优于现有同类技术，在答案准确率、检索效率与多模态适应能力等方面均表现出色。

技术关键词

大语言模型策略优化方法生成方法多模态轨迹生成答案损失函数设计定义信息检索决策格式合规性超参数信号数据表格终点