AI资讯新闻榜单内容搜索-AI评估

o3通关「俄罗斯方块」，碾压Gemini夺冠！UCSD新基准击碎宝可梦

UCSD等推出Lmgame Bench标准框架，结合多款经典游戏，分模块测评模型的感知、记忆与推理表现。结果显示，不同模型在各游戏中表现迥异，凸显游戏作为AI评估工具的独特价值。

来自主题: AI资讯

6194 点击 2025-07-01 16:15

大模型结构化推理优势难复制到垂直领域！最新法律AI评估标准来了，抱抱脸评测集趋势第一

大模型推理，无疑是当下最受热议的科技话题之一。

来自主题: AI技术研报

7476 点击 2025-06-05 16:55

人工智能代理不是玩具，而是工人|必须像评估劳动力一样评估AI代理

为什么必须像评估劳动力一样评估LLM代理，而不仅仅是评估软件。

来自主题: AI技术研报

5979 点击 2025-03-11 16:24

最新综述：LLM作为法官，用AI评判AI

让AI来评判AI，即利用大语言模型(LLM)作为评判者，已经成为近半年的Prompt热点领域。这个方向不仅代表了AI评估领域的重要突破，更为正在开发AI产品的工程师们提供了一个全新的思路。

来自主题: AI技术研报

9581 点击 2024-11-29 09:11

田渊栋团队新作祭出Agent-as-a-Judge！AI智能体自我审判，成本暴跌97%

AI评估AI可靠吗？来自Meta、KAUST团队的最新研究中，提出了Agent-as-a-Judge框架，证实了智能体系统能够以类人的方式评估。它不仅减少97%成本和时间，还提供丰富的中间反馈。

来自主题: AI技术研报

3010 点击 2024-10-27 15:35

自动化、可复现，基于大语言模型群体智能的多维评估基准Decentralized Arena来了

Maitrix.org 是由 UC San Diego, John Hopkins University, CMU， MBZUAI 等学术机构学者组成的开源组织，致力于发展大语言模型 (LLM)、世界模型 (World Model)、智能体模型 (Agent Model) 的技术以构建 AI 驱动的现实。

来自主题: AI技术研报

4978 点击 2024-10-22 14:38