摘要
本申请提出一种模型训练和任务执行方法、装置、设备、芯片和介质,涉及人工智能领域,其中,方法包括:获取与多模态的训练数据关联的输出数据组;其中,输出数据组中包括采用多模态大模型对训练数据执行视觉语言处理任务所输出的多个任务执行结果;根据多个任务执行结果的评价指标,从多个任务执行结果中确定多个正负样本对;其中,评价指标用于指示任务执行结果的输出质量,正负样本对中的正样本的评价指标高于负样本的评价指标;根据多个正负样本对,训练多模态大模型。由此,通过在输出数据组中,构建多个对策略优化更具引导价值的正负样本对,可为策略优化提供清晰的方向,有助于实现更快、更稳定的模型收敛,增强模型的训练效果和泛化能力。