「上下文工程」硅谷爆火,Karpathy亲自站台!提示工程瞬间失宠
「上下文工程」硅谷爆火,Karpathy亲自站台!提示工程瞬间失宠继提示工程之后,「上下文工程」又红了!这一概念深得Karpathy等硅谷大佬的喜欢,堪称「全新的氛围编程」。而智能体成败的关键,不在于精湛的代码,而是上下文工程。
继提示工程之后,「上下文工程」又红了!这一概念深得Karpathy等硅谷大佬的喜欢,堪称「全新的氛围编程」。而智能体成败的关键,不在于精湛的代码,而是上下文工程。
2025年的夏天,AI对各行各业的颠覆作用还在持续——餐饮业也不例外。就在刚刚过去的六月,旗下拥有肯德基、必胜客等头部品牌的餐饮巨头“百胜中国”,发布了首个餐厅营运智能体“Q睿”(Q-Smart Agent)。
“在百川智能的那段时间,我和同事们始终处在一种很亢奋的状态。尽管我们常常工作到深夜,甚至一两点钟才下班,但内心非常地充实和开心。”如今回忆起那段经历时,前百川工具链负责人徐文健的眼中依然有光。
MLA-Trust 是首个针对图形用户界面(GUI)环境下多模态大模型智能体(MLAs)的可信度评测框架。该研究构建了涵盖真实性、可控性、安全性与隐私性四个核心维度的评估体系,精心设计了 34 项高风险交互任务,横跨网页端与移动端双重测试平台,对 13 个当前最先进的商用及开源多模态大语言模型智能体进行深度评估,系统性揭示了 MLAs 从静态推理向动态交互转换过程中所产生的可信度风险。
就在今天,腾讯元器(智能体平台)悄悄上线了微信支付MCP
近年来,基于智能体的强化学习(Agent + RL)与智能体优化(Agent Optimization)在学术界引发了广泛关注。然而,实现具备工具调用能力的端到端智能体训练,首要瓶颈在于高质量任务数据的极度稀缺。
最近,关于大模型推理的测试时间扩展(Test time scaling law )的探索不断涌现出新的范式,包括① 结构化搜索结(如 MCTS),② 过程奖励模型(Process Reward Model )+ PPO,③ 可验证奖励 (Verifiable Reward)+ GRPO(DeepSeek R1)。
在 AI 工具风靡开发圈之前,一批经验丰富的资深程序员,对它们始终保持警惕。这些人,包括 Flask 作者 Armin Ronacher(17 年开发经验)、PSPDFKit 创始人 Peter Steinberger(17 年 iOS 和 macOS 开发经验),以及 Django 联合作者 Simon Willison(25 年编程经验)。然而,就在今年,他们的看法都发生了根本转变。
根据 Menlo Ventures 最新发布的《2025 年消费者 AI 现状报告》,全球已有 18 亿用户使用 AI 产品,付费转化率 3% 左右。行业领头羊 ChatGPT ,拥有 8 亿月活用户,付费转化率约 5%。C 端场景基数大且有一定的付费转化率,部分产品商业化渐入佳境。
想象一下,凌晨三点你被电话吵醒,公司的核心系统彻底崩溃,数十万用户无法正常使用服务,每分钟损失数万美元。你和 50 个工程师挤在一个 Slack 紧急群里,面对着成千上万条日志、指标和报警,却根本找不到问题的根源。