AI资讯新闻榜单内容搜索-模型

Agent评测的下半场：为什么需要一个「活的」Benchmark？

Claw-Eval-Live提出「活的」benchmark概念，通过信号采集与任务筛选，确保评测内容紧跟企业实际痛点，而非固定不变的题库。评测不仅关注结果，还追踪执行过程，从数据调用到状态变更，全面验证Agent的真实能力。

来自主题: AI技术研报

6608 点击 2026-05-11 16:08

当多模态大语言模型（MLLMs）在面对科学、技术、工程和数学（STEM）领域的视觉推理题时频频「翻车」，一个根本性的问题摆在了所有研究者面前：大模型做不出理科题，究竟是因为「脑子笨」（推理能力受限），还是因为「眼神差」（视觉感知缺陷）？

来自主题: AI技术研报

7037 点击 2026-05-11 16:08

他人生最大的一次跨步是博士毕业，毅然决然离开深造9年的物理，来到崭新的AI行业。过去两年，他先后在Anthropic和Google DeepMind出任研究科学家，参与了Claude 3.7、4.5、Gemini 3等关键模型的开发过程。

来自主题: AI资讯

12309 点击 2026-05-11 12:03

Chrome正在把你的电脑变成它的AI算力节点，没问过你，没通知你，而且删了还会自动重下。

来自主题: AI资讯

9279 点击 2026-05-11 09:37

AI能实现真正的沉浸式扮演了。

来自主题: AI技术研报

9063 点击 2026-05-11 09:34

GENE-26.5 值得看的，是它背后的「具身智能版 Harness + 模型」。

来自主题: AI技术研报

6525 点击 2026-05-11 09:04

大模型常因只关注当前预测而显得短视。Next-ToBE通过调整训练目标，让模型在每一步预测时兼顾未来token分布，从而提升整体推理能力。

来自主题: AI技术研报

6824 点击 2026-05-11 09:03

2026移动云大会，中国移动和火山引擎，一个运营商国家队，一个AI圈顶流，共同宣布了一个叫「机密大模型」的服务模式。

来自主题: AI资讯

10532 点击 2026-05-11 09:03

本文将深入探讨 Anthropic、OpenAI、Perplexity 和 LangChain 究竟在开发什么。我们将聊聊编排循环、工具、记忆、上下文管理，以及那些将“无状态”的大语言模型（LLM）转变为全能智能体（Agent）的底层机制。

来自主题: AI技术研报

8614 点击 2026-05-11 09:02

让大模型写一个小游戏，已经不新鲜了。它可以很快生成一个 Flappy Bird、一个塔防游戏、一个物理解谜页面，甚至还能补上按钮、分数和简单动画。但真正的问题是：这些游戏到底有没有新的玩法？它们是在创造，亦或只是把已有游戏换了一层皮？

来自主题: AI技术研报

10639 点击 2026-05-11 09:02