AI资讯新闻榜单内容搜索-AI评测

别再吹AI搞科研了！新评测泼冷水：顶尖模型离「合格科学家」还差得远

如今，大模型在理解、推理、编程等方面表现突出，但AI的“科学通用能力”（SGI）尚无统一标准。

来自主题: AI技术研报

8726 点击 2025-12-29 14:12

AAAI 2026｜视频大语言模型到底可不可信？23款主流模型全面测评来了

近年来，视频大语言模型在理解动态视觉信息方面展现出强大能力，成为处理真实世界多模态数据的重要基础模型。然而，它们在真实性、安全性、公平性、鲁棒性和隐私保护等方面仍面临严峻挑战。

来自主题: AI技术研报

5765 点击 2025-12-16 09:19

Refly.AI 一手评测！花了 50 万积分，想象出了将 Agent 做到 2 亿量级的样子！

我在想，有没有这样一个工具：我不用理解节点和变量，直接说我想要什么，AI 就帮我把工作流搭出来？我尝试了很多，直到遇到 Refly.AI 这个 Vibe Workflow 平台—— AI 自动搭建工作流。它给出了一个让我眼前一亮的答案：通过 Vibe Workflow，把想法变成自动化工作流，让我真正进入口喷工作流时代。

来自主题: AI产品测评

9961 点击 2025-12-11 11:54

谁是AI之王？聊聊备受争议的AI评测与崛起的LMArena

当AI模型排行榜开始被各种刷分作弊之后，谁家大模型最牛这个问题就变得非常主观，直到一家线上排行榜诞生，它叫：LMArena。在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域，LMArena上每天都有上千场的实时对战，由普通用户来匿名投票选出哪一方的回答更好。

来自主题: AI资讯

8253 点击 2025-11-03 09:41

GPT-5、Grok 4、o3 Pro都零分，史上最难AI评测基准换它了

前沿 AI 模型真的能做到博士级推理吗？前段时间，谷歌、OpenAI 的模型都在数学奥林匹克（IMO）水平测试中达到了金牌水准，这样的表现让人很容易联想到 LLM 是不是已经具备了解决博士级科研难题的推理能力？

来自主题: AI资讯

9184 点击 2025-08-15 20:41

真实科研水平集体不及格！全新基准SFE给主流多模态LLM来了波暴击

当前，驱动科学研究的人工智能（AI for Science，AI4S）在单点取得了可观的进展，实现了工具层面的革新，然而要成为「革命的工具」，需要采用「通专融合 AGI」方式。

来自主题: AI技术研报

10095 点击 2025-07-11 10:51

全球首个历史基准！普林复旦打造AI历史助手，AI破圈人文学科

普林斯顿大学AI实验室与复旦大学历史学系联手推出了全球首个聚焦历史研究能力的AI评测基准——HistBench，并同步开发了深度嵌入历史研究场景的AI助手——HistAgent。这一成果不仅填补了人文学科AI测试的空白，更为复杂史料处理与多模态理解建立了系统工具框架。

来自主题: AI资讯

8610 点击 2025-06-12 15:30

五大场景实测Manus、Flowith、Lovart：20 美元能否撬动Agent百倍效率？

2025年上半年，Agent成为大模型领域讨论最多的主题之一。

来自主题: AI资讯

9397 点击 2025-05-28 12:28

GPT-4V仅达Level-2？全球首个多模态通才段位排行榜发布，General-Level打造多模态通用AI评测新范式

多模态大模型（Multimodal Large Language Models, MLLM）正迅速崛起，从只能理解单一模态，到如今可以同时理解和生成图像、文本、音频甚至视频等多种模态。正因如此，在AI竞赛进入“下半场”之际（由最近的OpenAI研究员姚顺雨所引发的共识观点），设计科学的评估机制俨然成为决定胜负的核心关键。

来自主题: AI技术研报

9084 点击 2025-05-16 15:06

ICML Spotlight | MCU：全球首个生成式开放世界基准，革新通用AI评测范式

开发能在开放世界中完成多样任务的通用智能体，是AI领域的核心挑战。开放世界强调环境的动态性及任务的非预设性，智能体必须具备真正的泛化能力才能稳健应对。然而，现有评测体系多受限于任务多样化不足、任务数量有限以及环境单一等因素，难以准确衡量智能体是否真正「理解」任务，或仅是「记住」了特定解法。

来自主题: AI技术研报

7927 点击 2025-05-14 10:26