摘要
一种用于大语言模型的模型评估方法、装置、介质及设备,涉及大语言模型技术领域,所述方法包括:根据第一配置指令,生成用于对大语言模型进行模型评估的评估工作流,其中,所述评估工作流中包含评估节点;根据第二配置指令,确定所述评估节点对应的评估方法;基于评估数据集执行所述评估工作流,以在执行所述评估节点时基于所述评估方法和所述评估数据集对所述大语言模型进行模型评估,其中,所述评估数据集中包含至少一个评估题目。由此在对大语言模型进行模型评估时,可以通过编排而生成用于评估的评估工作流,无需评估人员进行脚本编写,既可以降低人工工作量,又可以提高评估工作流编排的灵活性,提升评估工作流和实际评估任务的适配性。