Anthropic让AI先读员工手册再上岗:失控率从54%降到7%
Anthropic让AI先读员工手册再上岗:失控率从54%降到7%Anthropic最新研究让AI先读懂规范背后的意义,再接受行为示范,在特定实验中将Agent失控率从54%压到7%。
搜索
Anthropic最新研究让AI先读懂规范背后的意义,再接受行为示范,在特定实验中将Agent失控率从54%压到7%。
别人做AI中训练都在堆语料、补知识。
Claude开发者大会来了!这一次,Anthropic让Agent学会了「做梦」,两次干活的间隙自动反刍记忆、自我进化。配合多Agent兵团作战和自动评分官,AI任务完成率直接暴涨6倍。
Anthropic宣布与SpaceX达成合作协议,将大幅提升算力储备。受此影响,Claude Code和Claude API的使用限制即日起全面上调。第一,Claude Code的5小时频率限制翻倍,适用于Pro、Max、Team以及按席位计费的Enterprise方案。
2026年5月4日,testingcatalog在Anthropic的Web/Mobile客户端里挖出隐藏功能Orbit。5月6日,Code with Claude大会在旧金山开幕。Orbit不等你开口就从Gmail、Slack、GitHub里替你干活了。
1000亿美元砸向AWS算力,5座核电站级别的能耗,营收狂飙至300亿——Anthropic和亚马逊刚刚签下了AI史上最疯狂的「军火合同」。
4 月 9 日,Anthropic 在 X 上宣布 Claude Managed Agents 上线。同一天,一位 ID 叫 @jiayuan_jy 的中国创业者也发了一条推,“We created the open source version of Claude Managed Agents. Introducing Multica.”
Anthropic联合创始人Jack Clark读完数百份公开数据,得出一个让他自己也坐不住的结论:2028年底前,AI自己造AI的概率是60%。支撑他这一判断的,是编程、科研复现、模型训练优化等多条能力曲线:每一条都在向右上方飞,没有减速迹象。
Anthropic让AI开口「招供」了。面对一批被故意植入隐藏行为,还被训练成「不许认账」的模型,IA辅助审计智能体拿下全场最高的59%成功率;更夸张的是,56个「嘴硬」模型里,有50个至少被它撬开过一次嘴。AI安全审计的游戏规则,悄悄变了。
AI 很快就能自己改造自己了?Anthropic 联合创始人 Jack Clark 发帖称,他最近几周阅读了大量公开的 AI 开发数据后,认为到 2028 年底,递归自我改进(recursive self-improvement)发生的概率有 60%。