
Agent狂欢下的冷思考:为什么说Data&AI数据基础设施,才是AI时代Infra新范式
Agent狂欢下的冷思考:为什么说Data&AI数据基础设施,才是AI时代Infra新范式年初,DeepSeek 前脚带来模型在推理能力上的大幅提升,Manus 后脚就在全球范围内描绘了一幅通用 Agent 的蓝图。新的范本里,Agent 不再止步于答疑解惑的「镶边」角色,开始变得主动,拆解分析需求、调用工具、执行任务,最终解决问题……
年初,DeepSeek 前脚带来模型在推理能力上的大幅提升,Manus 后脚就在全球范围内描绘了一幅通用 Agent 的蓝图。新的范本里,Agent 不再止步于答疑解惑的「镶边」角色,开始变得主动,拆解分析需求、调用工具、执行任务,最终解决问题……
刚刚,一篇来自香港大学 XLANG Lab 和月之暗面等多家机构的论文上线了 arXiv,其中提出了一个用于构建和扩展 CUA(使用计算机的智能体)的完全开源的框架。 使用该框架,他们还构建了一个旗舰模型 OpenCUA-32B,其在 OSWorld-Verified 上达到了 34.8% 的成功率,创下了新的开源 SOTA,甚至在这个基准测试中超越了 GPT-4o。
GUI 智能体正以前所未有的速度崛起,有望彻底改变人机交互的方式。然而,这一领域的进展正面临瓶颈:现有数据集大多聚焦于 10 步以内的短程交互,且仅验证最终结果,无法有效评估和训练智能体在真实世界中的长时程规划与执行能力。
之前在X上看到过一个新加坡版的DeepSeek,叫Agnes AI,主打一站式Agent空间。 但当时我自己搞产品焦头烂额的,随手点开看了看,就放下了。 后来在Product Hunt上又看到这款产品,以及各种海外平台时而刷到。
近年来,大语言模型(LLM)已展现出卓越的通用能力,但其核心仍是静态的。面对日新月异的任务、知识领域和交互环境,模型无法实时调整其内部参数,这一根本性瓶颈日益凸显。
智能体元年,处处都是智能体。甚至刚落幕的ISC.AI 2025第十三届互联网安全大会,主题直接就是“ALL IN AGENT”。
MiniMax 现在正在主动加速「从功能到可流通生产力」的进程。他们正在举办一场总奖金高达 15 万美元的 AI Agent 全球挑战赛,核心理念是「让自己的 Idea + Agent 成为生产力,成为市场中的硬通货」。Remix 则是官方重点推荐的参赛入口之一。
全世界可能是第一个,能做生意的Agent来了。 这,就是阿里国际站最近升级的Accio Agent。
从上周开始,我们就开始看到一些关于苹果在人工智能领域的长期规划开始浮出水面:从名为 AKI、力求在 iPhone 端侧打造「类 ChatGPT 搜索体验」的答案引擎,到本周目标指向 AI Agent 能力的「新 Siri」概念爆出。无数消息都指向了一个目标:「重生」。
Tavily AI 的故事开始于一个开源项目。创始人 Rotem Weiss 在 2023 年创建了一个叫做 GPT Researcher 的开源工具,目的是让大语言模型能够获取实时的网络数据。当时 ChatGPT 还没有接入互联网搜索功能,这个小工具迅速在开发者社区中走红,收获了近 2 万个 GitHub stars。