IEEE | LLM Agent的能力边界在哪?首篇「图智能体 (GLA)」综述为复杂系统构建统一蓝图
IEEE | LLM Agent的能力边界在哪?首篇「图智能体 (GLA)」综述为复杂系统构建统一蓝图LLM Agent 正以前所未有的速度发展,从网页浏览、软件开发到具身控制,其强大的自主能力令人瞩目。然而,繁荣的背后也带来了研究的「碎片化」和能力的「天花板」:多数 Agent 在可靠规划、长期记忆、海量工具管理和多智能体协调等方面仍显稚嫩,整个领域仿佛一片广袤却缺乏地图的丛林。
LLM Agent 正以前所未有的速度发展,从网页浏览、软件开发到具身控制,其强大的自主能力令人瞩目。然而,繁荣的背后也带来了研究的「碎片化」和能力的「天花板」:多数 Agent 在可靠规划、长期记忆、海量工具管理和多智能体协调等方面仍显稚嫩,整个领域仿佛一片广袤却缺乏地图的丛林。
大家一直热衷谈论的AGI忽然不香了,主流的AI公司都开始改口谈「超级智能」,AGI已经沦落为研究员口中的「自动化软件开发工具」。苏莱曼领军的微软MAI团队,正成为超级智能赛道一位新的「超级玩家」。曾曝「欺凌员工」的他,如今要打造有「人味」的AI。
2025年前盛行的闭源+重资本范式正被DeepSeek-R1与月之暗面Kimi K2 Thinking改写,二者以数百万美元成本、开源权重,凭MoE与MuonClip等优化,在SWE-Bench与BrowseComp等基准追平或超越GPT-5,并以更低API价格与本地部署撬动市场预期,促使行业从砸钱堆料转向以架构创新与稳定训练为核心的高效路线。
「Baidu is back」,在业界权威大模型公共基准测试平台 LMArena 发布最新一期文本竞技场排名(Text Arena)之后,有人发出了这样的惊呼。根据 11 月 8 日凌晨 LMArena 的最新排名显示,百度文心最新模型 ERNIE-5.0-Preview-1022(文心 5.0 Preview)在文本榜单上一举跃居全球并列第二、国内第一。
就在今天,谷歌Nano Banana 2预览版闪现第三方平台,生成速度飙到10秒、画质拉到4K。网友实测炸锅,一句话直出OS+UI复杂界面,还能在黑板上一键推导微积分。真正的「PS终结者」即将上线。
在旧金山北滩的一栋不起眼的建筑里,有一家公司正在悄然改变软件开发的规则。Cursor,过去一年最有名的一家 AI 独角兽,从零起步,在不到两年时间里达到了 1 亿美元 ARR,员工人数从二十几人扩张到接近 250 人,它的产品被全球顶尖开发者使用,甚至在重新定义「开发工具」的标准。
太快了!一天之内Grok连迎两大更新——Grok 4 Fast与Grok Imagine都进行了大升级。Grok 4 Fast把上下文窗口提高到2M,并把完成率拉到94.1%(推理)与97.9%(非推理)。这意味着,你不必再把一本书或一整个代码库切碎喂给模型,它可以一次吞下,然后稳定地给出结果。
现实爽文,小扎打脸! 2023年上半年,扎克伯格在Meta大裁员,几个月之内裁掉一万人,其中就包括由十几名科学家组成的Meta-FAIR蛋白质小组。 然而,被裁掉的几名科学家不甘心,创办了AI蛋白质公
在好莱坞,AI连动物演员的位置都抢走了!真实的动物被算法重建成更完美的数字替身。有人说这是技术的善意,能让动物不再受训练之苦;也有人说,这是一场「无声的驱逐」的革命。当连呼吸都能被算法生成,我们该怀念的,或许不是那些动物,而是它眼里那一点不完美的生命力。
2024年,加州大学圣地亚哥分校「Hao AI Lab」提出了DistServe的解耦推理理念,短短一年多时间,迅速从实验室概念成长为行业标准,被NVIDIA、vLLM等主流大模型推理框架采用,预示着AI正迈向「模块化智能」的新时代。