GPT-5-Codex 一手实测

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
GPT-5-Codex 一手实测
5818点击    2025-09-16 12:30

GPT-5-Codex 一手实测


Every 也是我的常读博客之一。


OpenAI 刚刚推出了新的编程模型 GPT-5 Codex,见前文:刚刚,OpenAI 发布 GPT‑5-Codex 新模型,专为编程而生


GPT-5-Codex 一手实测


Every 团队已经测试了几天,这个模型的表现相当狂野


它能动态选择「思考」时间:对于困难的问题会花更长时间思考,而对于简单问题则能立即返回答案。


在测试中,它在生产代码库上自主运行了长达 35 分钟,这相比之前过于谨慎的 GPT-5 是一个明显的升级。


更厉害的是,它支持本地和网页开发环境之间的无缝切换


你可以在 VS Code 中开始一个任务,然后在去买菜的时候把它交给 Codex Web 继续处理。它还有一个代码审查 Agent,能实际运行你的代码,因此能捕获更多 bug。


主要更新


  • GPT-5 Codex 模型带来了专门为编程优化的版本。这个模型会选择自己的「思考时间」:对于琐碎的查询会立即回答,而对于需要多步重构的复杂任务则会花更长时间。


  • VS Code、网页和命令行界面之间的切换变得异常顺畅。你可以在 VS Code 中开始编程,然后在关闭笔记本电脑之前把任务交给 Codex Cloud。因为任务现在运行在 OpenAI 的服务器上而不是你的机器上,所以即使你离线,它也会继续工作——这是本地执行无法做到的。虽然最终这个功能也会支持 Codex CLI,但目前只在 VS Code 中可用。


  • 代码审查功能也得到了改进。OpenAI 发布了一个代码审查机器人,它能在自己的空间中运行你的代码库,执行检查,并能在 GitHub 上应用修复——比只读代码的机器人能捕获更深层的问题。


  • 可用性和成本方面,GPT-5 Codex 将驱动基于网页的 Codex 版本,并可在 CLI 和 VS Code 扩展中选择,定价与 GPT-5 保持一致。


实际表现


智能的思考时间分配是最大亮点。


Cora 总经理 Kieran Klaassen 的实验显示,GPT-5 Codex 真正理解了什么时候该快速响应,什么时候该深思熟虑。当他要求它「快速」解释一个项目时,它在 30 秒内返回了答案,没有规划阶段。告诉它「超级努力思考」并「花一个小时」,它就会切换到深度分析模式,进行详细的规划。


更令人印象深刻的是,即使没有任何具体指示,模型也会做出明智的选择。


问它「我运行的是什么版本的 Ruby?」它会快速执行。问它「解释这个代码库」,它会自动花更多时间提供全面的分析。


不过这个新的模型特性需要一点时间来适应。


GPT-5 的优势之一是能够为代码库更改创建极其详细、经过深思熟虑的计划。但 GPT-5 Codex 有时会在研究和规划任务上思考不足,所以计划的质量比以前低。


持久运行能力有了巨大提升。


虽然 Codex 仍然不会无限期运行,但它比之前的版本有了显著改进。之前通常在 30 秒到一分钟后就会停止,而 GPT-5 Codex 可以维持更长的会话——如果你知道如何正确提问的话。Spiral 总经理 Danny Aziz 通过将任务分解成里程碑,成功让它连续工作了 35 分钟。


运行时间是自主性的代理指标。


运行时间的每一次跃升都让我们更接近这样一个阈值:重新启动 AI 的认知成本超过关闭它的好处。


Danny 对这次 35 分钟马拉松运行输出的评价是「总体上非常好」。模型甚至超出了他的要求,添加了不在原始计划中的生产就绪功能,比如功能标志。


你的实际效果可能会因提示词的结构和任务类型而有所不同。


Kieran 观察到一个清晰的模式:编码任务可以运行 25 分钟,但研究和规划任务从未超过五分钟。模型会完成一个任务,宣布下一步行动,然后等待继续的许可——特别是当被要求协调多个审查 Agent 时。


GPT-5-Codex 一手实测


Danny 发现这个模型「非常可控——你使用的每个词都很重要」。


告诉它「不要重复自己」,它就会重构现有代码的大块内容。将任务分解成有明确完成标准的里程碑,它就能运行超过半小时。


但如果要求它在准备好的计划中「实现所有内容」,它就会冻结成项目经理模式——设置所有功能和组件,然后暂停询问你想让它构建哪个特定的子系统。


视觉能力真正派上了用场。


模型处理截图的能力出人意料地有用。Kieran 用它创建了一个三维游戏,它能够看到游戏的截图,正确识别问题(比如光照和色彩平衡),并纯粹基于视觉输入修复它们。


在观察它基于截图迭代图形后,他指出「视觉方面工作得相当好」。因此,UI 工作的反馈循环更加紧密——你可以向它展示什么地方出了问题,而不是试图描述它。


确实,OpenAI 模型的视觉能力可以说是独一档的存在,相比之下,Claude Code 对截图的理解能力则明显要差许多。


参考:AI 识别谁是狗,Grok亮了……(Claude 完败)


更尊重你的环境


与 GPT-5 不同,后者在被要求修复一个按钮时经常会试图重建你的整个架构,GPT-5 Codex 表现出更多的克制。


在 Kieran 的测试中,它始终产生最小的、专注的更改,尊重现有的代码库结构。该模型还更优雅地处理环境设置。它正确地继承你的本地环境,并在不同命令之间保持上下文,让它感觉更像是一个适合你工作流程的工具,而不是要求你适应它的工具。


仍需改进的地方


对任务的挑剔依然存在。


虽然 GPT-5 Codex 在正确的提示下可以运行很长时间,但它对什么构成合理的工作有自己的看法。当 Danny 要求它在一个会话中编写一个复杂功能(Spiral 的类似 Claude 项目功能)时,它直接拒绝了:


这基本上是一个多冲刺项目。我无法在一个 CLI 会话中编写所有这些代码而不破坏任何东西。


通过一些创造性的提示,Danny 能够绕过这个障碍,但这种交互表明 Codex 倾向于对范围施加保护措施。


环境设置的麻烦


设置 Codex 暴露了一个恼人的限制:它对你的开发环境做出的假设可能与现实不符。Codex 假设 Kieran 使用一种类型的命令行 shell,而他实际使用的是另一种。就像一个新助手假设你使用 Windows 而你实际上在 Mac 上一样。


由于这种不匹配,他的 Ruby 编程语言在他的计算机和云端显示为不同的版本,破坏了依赖于这些版本匹配的 Ruby 功能。


修复需要手动重新配置系统文件和环境设置,只是为了让 Codex 识别他机器上已经安装的工具——在编写一行代码之前需要大约 30 分钟的繁琐设置工作。


相比之下,Claude Code 会自动检测并尊重你已经使用的任何设置,让你可以立即开始编码。


多 Agent 工作流仍然有问题


当复合工程专家 Kieran 试图按顺序运行多个审查 Agent 时,暴露了 Codex 最重要的限制。


即使给出了明确的指令,要求运行 10 个不同的 Agent 各 10 分钟,它会完成一个 Agent 的任务,宣布下一步,然后等待继续的许可。


该模型理解多个 Agent 的概念(它可以读取指令、起草计划并按顺序执行),但它还没有真正的子 Agent,并拒绝自行继续。即使你按顺序设置多个任务,它也会在每一步后停止,而不是像 Claude Code 在长期研究任务中那样继续前进。


有进步,但仍需耐心


Dan Shipper(@danshipper) 表示:


我一直在为 Cora 构建一个功能,GPT-5 Codex 在 CLI 中一直是我的首选工具。它很适合在我不熟悉的生产代码库中编写代码。它感觉精确而像手术刀一样,这帮助我避免推送令人尴尬的代码。


Noam Tenne(@NoamTenne) 期待更多的 Claude Code 相关功能:


Codex 已经感觉像是超越 Claude Code 的飞跃,迫不及待想获得访问权限。也希望看到 Codex SDK,类似于 Claude Code SDK


网友 Bret Jutras(@BretJutras) 分享了他的使用经验:


我喜欢现在正在发生的代码竞赛。试试将它与 Spec Kit 结合。我正在使用 Spec Kit 和 Claude Code,它可以编码超过一个小时,并且有非常好的结果。在我的经验中,任务分解功能让模型保持在正轨上非常好


Michael Wall(@sound4movement) 分享了准确性的提升:


对我来说,最让我印象深刻的是 gpt-5-codex 在逐轮生成编码期间不会「撒谎」。我与其他编码模型最大的挣扎是它们经常会误导我。我会要求它们删除某些东西,它们会声称已经做了,然后坚持这个「谎言/信念」


Laksh(@laksh_officiall) 则对动态思考时间印象深刻:


「动态思考时间」感觉像是真正的突破——终于在需要时平衡了即时回复和更深层的推理


GPT-5 Codex 是向 Agent 化编程迈出的又一步。


由于其不同的思考级别,它在编程生命周期的更多部分更加可用,其本地到网页的切换功能也很有前途。


话虽如此,它仍然过于谨慎。


在 CLI 中,它还没有达到与 Claude Code 的功能平等。


例如,它没有子 Agent。但这是朝着正确方向迈出的真正一步,正在成为复合工程工具包中有价值的一部分。


[1] 完整测评文章: https://every.to/vibe-check/gpt-5-codex-knows-when-to-think-hard-and-when-not-to

[2] Codex CLI 文档: https://developers.openai.com/codex/cli/


文章来自于“AGl Hunt”,作者“J0hn”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0