AI资讯新闻榜单内容搜索-MMLU-PRO

AI竞技场，归根到底只是一门生意

AI模型排行榜分两类：以高考式标准化测试衡量特定能力的客观基准测试（如AAII、MMLU-Pro），以及用户匿名盲测、根据偏好对答案投票排名的人类偏好竞技场（如LMArena）。两者各有优劣和局限性，且排行榜本质是门生意。用户应基于实际需求而非榜单名次选择模型，实用性至上。

来自主题: AI资讯

11108 点击 2025-08-07 10:45

DeepSeek-R1、o1都在及格线挣扎！字节开源全新知识推理测评集，覆盖285个学科

要知道，过去几年，各种通用评测逐渐同质化，越来越难以评估模型真实能力。GPQA、MMLU-pro、MMLU等流行基准，各家模型出街时人手一份，但局限性也开始暴露，比如覆盖范围狭窄（通常不足 50 个学科），不含长尾知识；缺乏足够挑战性和区分度，比如 GPT-4o 在 MMLU-Pro 上准确率飙到 92.3%。

来自主题: AI技术研报

8194 点击 2025-03-04 14:28

大模型权威测试被曝翻车！更偏袒GPT-4等闭源模型，连提示词都区别对待

大模型权威测试，翻车了？！ HuggingFace都在用的MMLU-PRO，被扒出评测方法更偏向闭源模型，被网友直接在GitHub Issue提出质疑。

来自主题: AI技术研报

9163 点击 2024-07-12 00:44