微软Terminus-4B之后,Agent可能会进入「专用小模型Sub Agent」时代
微软Terminus-4B之后,Agent可能会进入「专用小模型Sub Agent」时代您有没有想过:在代码Agent里,执行终端命令、跑测试、读报错、总结日志这种任务,用Claude Opus、Claude Sonnet、GPT-5.3-Codex这类昂贵Token的大模型来执行,是不是有点浪费?一定要这么做吗?
搜索
您有没有想过:在代码Agent里,执行终端命令、跑测试、读报错、总结日志这种任务,用Claude Opus、Claude Sonnet、GPT-5.3-Codex这类昂贵Token的大模型来执行,是不是有点浪费?一定要这么做吗?
就在刚刚,OpenAI 正式发布了 GPT-5.5 Instant,将其设为 ChatGPT 的默认模型,取代此前的 GPT-5.3 Instant,面向所有用户开放。Instant 系列是 ChatGPT 的日常主力模型,每天有数以亿计的用户在用。官方说,在这个量级上,哪怕只是小幅改进,积累起来的效果也相当可观。
GPT-5.3 Instant不卷跑分,专治「聊天翻车」:不再动不动拒绝回答,不再满嘴说教免责,幻觉率暴降27%,写作能力也跳了一个台阶。
OpenAI深夜突袭,GPT-5.3-Codex-Spark正式炸场。核心卖点只有一个:快!每秒1000个token,让代码生成告别加载条。联手Cerebras怪兽级硬件,物理外挂直接拉满。这不再是简单的工具升级。而是一场关于速度的暴力美学。
春节还没到,「过年的气氛」已经渗入科技圈每个人的毛孔。单说 AI 大模型这一块,刚刚发布的有 kimi 2.5 和 Step 3.5 Flash,即将发布的据说还有 DeepSeek V4,GPT-5.3、Claude Sonnet 5、Qwen 3.5,GLM-5,说不定一觉醒来,现有的技术就要被颠覆。
就在这个被 Anthropic 和 OpenAI 视为衡量 Agent 真实工程能力全球权威基准 Terminal-Bench 2.0 榜单上,中国团队 Feeling AI 凭借 CodeBrain-1,搭载最新 GPT-5.3-Codex 底座模型,一举冲到 72.9%(70.3%) 并跻身全球排行榜第二,成为榜单前 10 中唯一的中国团队。
在今天,我可以拍着胸脯说,OpenAI的Codex+GPT-5.3-codex,就是你最佳的入门、进阶、毕业的一条龙产品。你要相信我,愚钝如我,也能在它上面感受到进入心流的爽感,一个周末用它,解决了我四五个过去我完全一个人无法实现的开发需求。
网上对 Codex 的评价在这几天也有了不少逆转,许多开发者从 Claude Code 转向 Codex,一些在国内的独立开发者也表示 Codex Plus 会员就可以用,而且还不会像 Claude 那般总是无情封号。
一天之内,两大编程AI轮番轰炸硅谷。Claude Opus 4.6之后,奥特曼紧急放出GPT-5.3-Codex。双雄争霸,彻底撕开AI王座争夺战的帷幕。
一句神秘指令刷屏全网!ChatGPT启用全新「记忆」功能,画出了和人类相处的真相。如今,GPT-5.3已经在路上。