AI资讯新闻榜单内容搜索-模型训练

具身大模型R1时刻：LIBERO终结者，99.9%背后的物理推理新范式

机器人拉个拉链，到底需不需要“脑子”？

来自主题: AI技术研报

7597 点击 2026-05-11 16:10

近年来，大模型能力提升的焦点正在从「训练时扩展」转向「推理时扩展」。从 Best-of-N、Self-Consistency 到更复杂的搜索与验证框架，Test-Time Scaling 已经成为提升大模型复杂推理能力的重要范式。

来自主题: AI技术研报

5759 点击 2026-05-11 16:09

Claw-Eval-Live提出「活的」benchmark概念，通过信号采集与任务筛选，确保评测内容紧跟企业实际痛点，而非固定不变的题库。评测不仅关注结果，还追踪执行过程，从数据调用到状态变更，全面验证Agent的真实能力。

来自主题: AI技术研报

6200 点击 2026-05-11 16:08

当多模态大语言模型（MLLMs）在面对科学、技术、工程和数学（STEM）领域的视觉推理题时频频「翻车」，一个根本性的问题摆在了所有研究者面前：大模型做不出理科题，究竟是因为「脑子笨」（推理能力受限），还是因为「眼神差」（视觉感知缺陷）？

来自主题: AI技术研报

6648 点击 2026-05-11 16:08

AI能实现真正的沉浸式扮演了。

来自主题: AI技术研报

8713 点击 2026-05-11 09:34

大模型常因只关注当前预测而显得短视。Next-ToBE通过调整训练目标，让模型在每一步预测时兼顾未来token分布，从而提升整体推理能力。

来自主题: AI技术研报

6490 点击 2026-05-11 09:03

让大模型写一个小游戏，已经不新鲜了。它可以很快生成一个 Flappy Bird、一个塔防游戏、一个物理解谜页面，甚至还能补上按钮、分数和简单动画。但真正的问题是：这些游戏到底有没有新的玩法？它们是在创造，亦或只是把已有游戏换了一层皮？

来自主题: AI技术研报

10244 点击 2026-05-11 09:02

当大模型看起来很自信时，它真的“相信”自己说的话吗？

来自主题: AI技术研报

6946 点击 2026-05-11 09:01

最近，研究机构Palisade Research发布了一项令整个行业震惊的成果—— 研究员在终端只输入了4个单词，AI就完成了从黑客攻击到自我繁衍的全过程。这是AI通过黑客手段实现自我复制的首个纪录！

来自主题: AI技术研报

9102 点击 2026-05-10 10:45

华为联合新加坡国立大学和中国科学技术大学研究人员提出 QuantClaw。这是一款面向 OpenClaw 的即插即用动态模型精度路由插件，基于大规模低精度量化实证研究，让模型精度成为可动态分配的资源，实现服务质量不降反升、成本下降、延迟降低的三重收益。

来自主题: AI技术研报

8050 点击 2026-05-10 10:42