Agent「记吃不记打」?华为诺亚&港中文发布SCOPE:Prompt自我进化,让HLE成功率翻倍
Agent「记吃不记打」?华为诺亚&港中文发布SCOPE:Prompt自我进化,让HLE成功率翻倍在 LLM Agent 领域,有一个常见的问题:Agent 明明 "看到了" 错误信息,却总是重蹈覆辙。
在 LLM Agent 领域,有一个常见的问题:Agent 明明 "看到了" 错误信息,却总是重蹈覆辙。
1200行泄露代码揭开真相:在Waymo的自动驾驶铁盒子里,无所不能的Gemini不仅被禁止碰方向盘,还被迫变成了一个会讲冷笑话的卑微陪聊。
各位同学可能还记得我上一篇文章经历一审二审后,我用 Gemini 批判性思维解构了那份让我败诉的判决书(附提示词)。在那篇文章里,我分享了如何利用“司法批判大师”这个提示词,去拆解一份逻辑充满漏洞的判决书。在那场关于土地征收的博弈中,我们不仅在对抗实体的不公,更在对抗程序的消耗。
打官司这件事,尤其是涉及到土地征收和强拆的“民告官”,真的是一场漫长且消耗巨大的折磨。
Sebastian 在分析中指出,Profit AI 的核心功能非常简单:用户上传一张股票图表的照片,AI 就会给出分析。他甚至直接展示了这个应用的全部技术:就是调用 ChatGPT API,上传图片,发送提示词,然后返回分析结果。如果你直接用 ChatGPT 做同样的事情,得到的信息几乎一模一样。这个应用唯一做的,就是把这个过程包装得更精美一些,界面更友好一些。
最绝望的事,莫过于,错过了自己那个本该精彩的人生。所以,我突然有一个想法,就是AI明明现在都这么强了。那,为什么不可以,帮我挖掘我们自己真正的天赋呢?说干就干,在花了一下午时间,迭代了好多版Prompt之后。
正如奥特曼执意打造硬件,试图打破手机屏束缚,要让 AI 感受物理世界;Looki 的诞生也源于同样的渴望:补齐大模型「感官智能」的最后拼图,将现实场景实时转化为上下文,驱动人机交互从「被动问答」进化为「主动共鸣」。
在Anthropic,有一位驻场哲学家Amanda Askell专门研究如何与AI模型打交道。她不仅主导设计了Claude的性格、对齐与价值观机制,还总结出一些行之有效的提示词技巧。哲学在AI时代不仅没有落伍,反而那些通过哲学训练掌握提示词技巧的人,年薪中位数可以高达15万美元。
给你 30s,介绍一下今天你的 OOTD 吧。
我们正处在一个AI Agent(智能体)爆发的时代。从简单的ReAct循环到复杂的Multi-Agent Swarm(多智能体蜂群),新的架构层出不穷。但在这些眼花缭乱的名词背后,开发者的工作往往更像是一门“玄学”,我们凭直觉调整提示词,凭经验增加Agent的数量,却很难说清楚为什么某个架构在特定任务上表现更好。