用于大语言模型的模型评估方法、装置、介质及设备

申请号：CN202511538152

申请日期：2025-10-24

公开号：CN121008999A

公开日期：2025-11-25

类型：发明专利

摘要

一种用于大语言模型的模型评估方法、装置、介质及设备，涉及大语言模型技术领域，所述方法包括：根据第一配置指令，生成用于对大语言模型进行模型评估的评估工作流，其中，所述评估工作流中包含评估节点；根据第二配置指令，确定所述评估节点对应的评估方法；基于评估数据集执行所述评估工作流，以在执行所述评估节点时基于所述评估方法和所述评估数据集对所述大语言模型进行模型评估，其中，所述评估数据集中包含至少一个评估题目。由此在对大语言模型进行模型评估时，可以通过编排而生成用于评估的评估工作流，无需评估人员进行脚本编写，既可以降低人工工作量，又可以提高评估工作流编排的灵活性，提升评估工作流和实际评估任务的适配性。

技术关键词

模型评估方法评估工作流大语言模型节点指令评估装置数据存储装置人工工作量标识计算机程序产品日志展示界面快照介质电子设备模块脚本处理器