AI资讯新闻榜单内容搜索-AI测评

AI接管数字世界！华为Claw-Anything：面向跨设备、跨时间、跨服务的Claw评测与数据引擎

我们相信，常驻型 (always-on) AI 助理的下一次飞跃，不在于把某一个模型单点调得更聪明，而在于扩展智能体的上下文 (Scaling Agent Context)—— 不断拓宽助理能够持续 "感知 — 推理 — 执行" 的范围，作为生活连接器连接用户的信息孤岛，直到它能接管用户的整个数字世界。

来自主题: AI技术研报

8069 点击 2026-06-21 10:34

刚刚，Claude Mythos打爆AI评测天花板！超指数狂飙，2027奇点加速

就在刚刚，Claude Mythos把评测干「失效」了：METR第一次测不准，AI攻防拐点到了！AI进化已成「外星文明」降临，超越指数增长，2027 AGI奇点正加速撞向人类。

来自主题: AI技术研报

8853 点击 2026-05-11 17:29

挤干大模型高分「水分」！最强模型仅49分，南大傅朝友发布Video-MME-v2

现有大模型评测分数日趋饱和，但与真实体验差距显著。南京大学傅朝友团队牵头，在 Google Gemini 评测团队邀约下推出视频理解新基准 Video-MME-v2。凭借创新的分层能力体系与组级非线性评分，以及 3300 + 人工时高质量标注，揭示模型与人类的巨大鸿沟（49 vs 90）、传统 Acc 指标虚高、以及 “Thinking” 并非总是增益等现象。

来自主题: AI技术研报

10663 点击 2026-04-13 15:01

NVIDIA GTC上登顶的DeepResearch Bench，到底在评什么？

3 月 16 日，在刚刚结束的 NVIDIA GTC 2026 大会上，黄仁勋在长达三小时的 Keynote 演讲中发布了 NVIDIA Agent Toolkit 和 AI-Q 开放智能体蓝图，将 AI Agent 定位为下一个重大前沿。

来自主题: AI技术研报

9072 点击 2026-04-01 09:39

图文救星Seede AI，不写提示词、生成高清图还带源文件！

嗨大家好！我是阿真！前几天发过提示词生图相关的推文，大家普遍有个痛点，直接生成但是写提示词很痛苦，提示词调整来调整去，有点小问题又想再抽卡，最后时间浪费了，效果也一般般。

来自主题: AI产品测评

7999 点击 2026-03-12 11:52

AI圈炒作圣经震撼首发（附提示词skill）

语言即武器。在《一九八四》里，大洋国发明了新话，其目的在于控制思维方式。AI测评媒体的小编们疑似对此进行借鉴，也开始通过语言通货膨胀的方式，批量发明更适合AI圈读者体质的新话，把咱读者朋友们调教得阈值越来越高，现在看正常文章都觉得食之无味。

来自主题: AI资讯

8894 点击 2026-03-09 10:34

花21000块钱，测34205条主流大模型用例，结论免费给你

春节闭关五天，我做了个东西：一个大模型场景化测评平台。35000+ 次模型跑测，一共 42+ 模型，11,000 块人民币。我全部跑完了，结论汇成一个平台，还会持续更新。

来自主题: AI产品测评

9737 点击 2026-02-24 15:31

全面实测 Bevel AI｜融了1000万美元，DAU 超 10 万的 AI 原生健康产品，这才是 AI 时代“以人为本”的交互

今天我们来聊聊：AI 原生健康产品的标杆 —— Bevel。跟大家聊个最近我特真实的体感。这几年我一直半强迫自己戴着 Apple Watch，手机里还装了常年霸榜的 AutoSleep。我相信你们很多人也买了，但说实话：真挺鸡肋的。

来自主题: AI产品测评

10500 点击 2026-01-18 15:04

一夜200万阅读，OpenAI神同步！这项测评框架让全球顶尖LLM全翻车

最近，一篇由中国团队领衔全球24所TOP高校机构发布，用于评测LLMs for Science能力高低的论文，在外网炸了！当晚，Keras （最高效易用的深度学习框架之一）缔造者François Chollet转发论文链接，并喊出：「我们迫切需要新思路来推动人工智能走向科学创新。」

来自主题: AI资讯

9042 点击 2026-01-15 11:22

Refly.AI 一手评测！花了 50 万积分，想象出了将 Agent 做到 2 亿量级的样子！

我在想，有没有这样一个工具：我不用理解节点和变量，直接说我想要什么，AI 就帮我把工作流搭出来？我尝试了很多，直到遇到 Refly.AI 这个 Vibe Workflow 平台—— AI 自动搭建工作流。它给出了一个让我眼前一亮的答案：通过 Vibe Workflow，把想法变成自动化工作流，让我真正进入口喷工作流时代。

来自主题: AI产品测评

11554 点击 2025-12-11 11:54