AI资讯新闻榜单内容搜索-AI评测

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: AI评测
自动化、可复现,基于大语言模型群体智能的多维评估基准Decentralized Arena来了

自动化、可复现,基于大语言模型群体智能的多维评估基准Decentralized Arena来了

自动化、可复现,基于大语言模型群体智能的多维评估基准Decentralized Arena来了

Maitrix.org 是由 UC San Diego, John Hopkins University, CMU, MBZUAI 等学术机构学者组成的开源组织,致力于发展大语言模型 (LLM)、世界模型 (World Model)、智能体模型 (Agent Model) 的技术以构建 AI 驱动的现实。

来自主题: AI技术研报
4282 点击    2024-10-22 14:38
卷起来!让智能体评估智能体,Meta发布Agent-as-a-Judge

卷起来!让智能体评估智能体,Meta发布Agent-as-a-Judge

卷起来!让智能体评估智能体,Meta发布Agent-as-a-Judge

微软发布了 Copilot,Apple 将 Apple Intelligence 接入了 OpenAI 以增强 Siri。

来自主题: AI技术研报
3576 点击    2024-10-18 13:59
Evaluation is All You Need!首个开源多模态大模型通用评测器LLaVA-Critic

Evaluation is All You Need!首个开源多模态大模型通用评测器LLaVA-Critic

Evaluation is All You Need!首个开源多模态大模型通用评测器LLaVA-Critic

随着对现有互联网数据的预训练逐渐成熟,研究的探索空间正由预训练转向后期训练(Post-training),OpenAI o1 的发布正彰显了这一点。

来自主题: AI技术研报
4029 点击    2024-10-14 15:46
大模型常用评测基准汇总

大模型常用评测基准汇总

大模型常用评测基准汇总

基于评测维度,考虑到各评测集关注的评测维度,可以将其划分为通用评测基准和具体评测基准。

来自主题: AI资讯
10628 点击    2024-07-23 19:24
IDC最新报告,7大维度11家大模型厂商比拼,唯一全优是谁?

IDC最新报告,7大维度11家大模型厂商比拼,唯一全优是谁?

IDC最新报告,7大维度11家大模型厂商比拼,唯一全优是谁?

如果考试题太简单,学渣也能拿一百昏。在 AI 圈,我们应该拿怎样的「试卷」来检验一直处于流量 C 位的大模型的真实水平?是高考题吗?当然不是!

来自主题: AI资讯
9718 点击    2024-06-14 10:31