当前,大型语言模型(LLM)在软件工程领域的应用日新月异,尤其是在自动修复 Bug 方面,以 SWE-bench 为代表的基准测试展示了 AI 惊人的潜力。然而,软件开发远不止于修 Bug,功能开发与迭代才是日常工作的重头戏。
那么,当我们将任务从「修复一个已知问题」升级为「根据软件文档添加一个新功能」时,当今最强的 AI 模型表现如何?
近日,由浙江大学牵头,联合香港科技大学、德国斯图加特大学等机构的研究者们,共同推出了一个全新的评估基准 NoCode-bench。这项研究直面真实世界中更为常见的「自然语言驱动功能添加」任务,意外发现:即便是当前最佳 LLM,在此任务上的成功率也仅有两成,揭示了当前 AI 在真实软件开发能力上的巨大挑战。
现有的基准测试(如 SWE-bench)大多聚焦于根据 Bug 报告(Issue Description)来修复代码,更像是「封闭式问答」。而 NoCode-bench 指出未来的软件开发可能完全由软件文档驱动,提出了一个更开放、更接近真实开发协同的评估场景:
开发者更新了软件文档,AI 能否自动理解文档变更,并完成相应的代码修改以实现新功能?
在软件维护成本中,约 60% 用于功能性增强,而非简单的缺陷修复。 NoCode-bench 正是为此而生,它旨在弥补现有评测基准的空白,推动 AI 从「修理工」向「开发工程师」的角色转变。
SWE-bench 主要作者、普林斯顿大学研究科学家 Ofir Press 也推荐了该评估基准。
构建 NoCode-bench 要求识别开发者认可功能添加。与直接从 GitHub Issues 中挖掘数据不同,NoCode-bench 提出从开发者维护的发行说明(Release Notes)出发来实现这一目标。发行说明中通常包含由项目核心开发者人工确认的「功能增加」条目,为筛选高质量、真实的功能添加实例提供了可靠的源头,有效减少了噪音。
Seaborn 项目发行说明节选
为了确保任务的真实性和高质量,研究团队设计了一套严谨的构建流程。这套流程以发行说明为起点,包含 5 个阶段:
此外,为了方便研究者在有限资源下进行轻量级且可靠的评估,团队还精心构建了一个经过人工验证的子集 NoCode-bench Verified。该子集包含 114 个高质量实例,其任务描述的清晰度和评估测试的准确性都经过了人工验证,确保了评估的信度和效度。
对比现有基准,NoCode-bench 的任务呈现出三大挑战:
1. 输入更复杂:文档变更的平均长度几乎是 Bug 报告的两倍,要求模型具备更强的长文本理解和关键信息提取能力。
2. 定位更困难:平均每个任务需要修改的文件数和代码块(hunks)数量都远超以往,且涉及大量的文件新增或删除,对模型的跨文件编辑能力提出了极高要求。
3. 编辑量更大:平均修改的代码行数是 SWE-bench 的数倍,近 20% 的任务修改量超过 200 行,这极大增加了代码生成的难度和引入错误的风险。
研究团队在 NoCode-bench 上全面评估了包括 Claude-4-Sonnet、DeepSeek-V3、GPT-4o、Gemini-2.5-Pro 在内的六种业界领先的 LLM。 结果令人意外:
通过对失败案例的深入分析,团队总结了三大主要原因:
1. 缺乏跨文件编辑能力:模型倾向于在单个文件中进行修改,而真实的功能开发往往需要跨越多个文件进行协同编辑,导致模型无从下手。
2. 缺乏对代码库结构的整体理解:模型常常为了实现新功能而直接修改现有核心代码,破坏了原有的软件架构和功能,导致大量回归测试失败。
3. 工具调用能力不足:在使用 Agent 框架时,模型无法稳定生成格式正确的工具调用指令,导致无法有效与代码库交互,甚至直接导致任务失败。
这项研究通过 NoCode-bench 的构建与评估,为我们揭示了 AI 在自动化软件开发领域的真实进展和未来方向。
研究团队已将 NoCode-bench 的完整数据集、构建流程和评估代码全部开源,希望能推动社区共同攻克 LLM 在复杂软件工程任务中的瓶颈,为实现软件开发的大众化奠定基础。
文章来自于微信公众号“机器之心”。
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/