AI资讯新闻榜单内容搜索-AI评估

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: AI评估
o3通关「俄罗斯方块」,碾压Gemini夺冠!UCSD新基准击碎宝可梦

o3通关「俄罗斯方块」,碾压Gemini夺冠!UCSD新基准击碎宝可梦

o3通关「俄罗斯方块」,碾压Gemini夺冠!UCSD新基准击碎宝可梦

UCSD等推出Lmgame Bench标准框架,结合多款经典游戏,分模块测评模型的感知、记忆与推理表现。结果显示,不同模型在各游戏中表现迥异,凸显游戏作为AI评估工具的独特价值。

来自主题: AI资讯
5545 点击    2025-07-01 16:15
最新综述:LLM作为法官,用AI评判AI

最新综述:LLM作为法官,用AI评判AI

最新综述:LLM作为法官,用AI评判AI

让AI来评判AI,即利用大语言模型(LLM)作为评判者,已经成为近半年的Prompt热点领域。这个方向不仅代表了AI评估领域的重要突破,更为正在开发AI产品的工程师们提供了一个全新的思路。

来自主题: AI技术研报
8884 点击    2024-11-29 09:11
田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判,成本暴跌97%

田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判,成本暴跌97%

田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判,成本暴跌97%

AI评估AI可靠吗?来自Meta、KAUST团队的最新研究中,提出了Agent-as-a-Judge框架,证实了智能体系统能够以类人的方式评估。它不仅减少97%成本和时间,还提供丰富的中间反馈。

来自主题: AI技术研报
2414 点击    2024-10-27 15:35
自动化、可复现,基于大语言模型群体智能的多维评估基准Decentralized Arena来了

自动化、可复现,基于大语言模型群体智能的多维评估基准Decentralized Arena来了

自动化、可复现,基于大语言模型群体智能的多维评估基准Decentralized Arena来了

Maitrix.org 是由 UC San Diego, John Hopkins University, CMU, MBZUAI 等学术机构学者组成的开源组织,致力于发展大语言模型 (LLM)、世界模型 (World Model)、智能体模型 (Agent Model) 的技术以构建 AI 驱动的现实。

来自主题: AI技术研报
4283 点击    2024-10-22 14:38
用AI评估AI,上交大新款大模型部分任务超越GPT-4,模型数据都开源

用AI评估AI,上交大新款大模型部分任务超越GPT-4,模型数据都开源

用AI评估AI,上交大新款大模型部分任务超越GPT-4,模型数据都开源

评估大模型对齐表现最高效的方式是?在生成式AI趋势里,让大模型回答和人类价值(意图)一致非常重要,也就是业内常说的对齐(Alignment)。

来自主题: AI技术研报
3910 点击    2023-11-13 21:49