AI资讯新闻榜单内容搜索-模型评测

达摩院发布世界模型评测基准，自家模型一个都没上榜......

达摩院联合高校推出WorldOlympiad评测基准，跳出传统视频“唯画质”的评价逻辑，以物理真实性、三维几何一致性、长时序交互保真度三大维度，搭配游戏、机器人、通用实景三大场景，打造一套全方位的视频世界模型评测体系。

来自主题: AI技术研报

9080 点击 2026-06-17 14:28

OpenAI科学家Noam Brown：AI的真正上限，可能根本没人测得起

随着大语言模型逐步进入复杂推理、自动化研究和网络安全等高难度任务，传统的模型评测方式正在面临新的挑战。

来自主题: AI资讯

6675 点击 2026-06-10 15:16

让机器人学会番茄炒蛋爆红网络的 Genesis AI，开源了自己的机器人「训练场」

真实世界需要 200 多个小时的模型评测任务，可以在仿真中不到 0.5 小时内完成。

来自主题: AI资讯

8627 点击 2026-05-29 10:30

国产大模型杀疯了！一手横测 MiniMax、DeepSeek V4、Kimi K2.6、MiMo 后，我找到了最能干活的 AI 牛马

从去年开始做这个账号以来，我其实写过不少测模型的文章。我相信也有很多朋友是因为看了我测评的文章关注我的。但从过年之后，真的就很少写模型评测的文章了。主要是我写文章的速度甚至一度跟不上模型发布的速度了。

来自主题: AI产品测评

10924 点击 2026-05-02 11:01

挤干大模型高分「水分」！最强模型仅49分，南大傅朝友发布Video-MME-v2

现有大模型评测分数日趋饱和，但与真实体验差距显著。南京大学傅朝友团队牵头，在 Google Gemini 评测团队邀约下推出视频理解新基准 Video-MME-v2。凭借创新的分层能力体系与组级非线性评分，以及 3300 + 人工时高质量标注，揭示模型与人类的巨大鸿沟（49 vs 90）、传统 Acc 指标虚高、以及 “Thinking” 并非总是增益等现象。

来自主题: AI技术研报

10664 点击 2026-04-13 15:01

南大团队直击大模型高分神话：人类90分，最强模型仅49分

现有大模型评测分数日趋饱和，但与真实体验差距显著。南京大学傅朝友团队牵头，在Google Gemini评测团队邀约下推出视频理解新基准Video-MME-v2。凭借创新的分层能力体系与组级非线性评分，以及3300+人工时高质量标注，揭示模型与人类的巨大鸿沟（49vs90）、传统Acc指标虚高、以及「Thinking」并非总是增益等现象。

来自主题: AI技术研报

8097 点击 2026-04-13 13:48

力压李飞飞团队登顶WorldScore，黑马Manifold AI领跑世界动作模型新范式

通用世界模型评测榜单 WorldScore 登顶、建立具身世界模型评测榜单 WorldArena 、发布通用世界模型 WorldScape 、发布世界-动作模型 WorldScape Policy，这家低调的世界模型创业公司 Manifold AI（流形空间）近期走出隐身模式频频出手，开始领跑世界-动作模型具身新路线。

来自主题: AI资讯

8693 点击 2026-04-04 11:03