Claude Sonnet 4.5被炸出来了,依旧最强编程,连续30小时自主运行写代码

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Claude Sonnet 4.5被炸出来了,依旧最强编程,连续30小时自主运行写代码
6823点击    2025-09-30 16:20

最强编程模型让位了。


但没有换人,依然是Claude。


新发布的Claude Sonnet 4.5,在SWE-bench上的成绩比Sonnet 4提升了1.8个百分点,而且提质不加价。


Claude Sonnet 4.5被炸出来了,依旧最强编程,连续30小时自主运行写代码


而且有第三方表示,Claude Sonnet 4.5能一口气工作30个小时,完全自主地编写代码


在这30个小时里,Claude Sonnet 4.5写了11000多行代码,构建出了类似Slack的聊天应用。


此前Opus 4曾因为连续工作7小时就备受关注,现在这个数字直接变成了4倍多。


Claude Sonnet 4.5被炸出来了,依旧最强编程,连续30小时自主运行写代码


计算机操作方面,Claude Sonnet 4.5在OSWorld测试中取得了60.2分的SOTA成绩,比Sonnet 4提升了近一半。


总之,Claude Sonnet 4.5在多项领域都实现了对自己的超越,成为该领域内的最佳模型。


先有昨晚的DeepSeek-V3.2,紧接着又是Claude Sonnet 4.5,赶在节前密集上新的模型,看来是真的不让人放假了。(手动狗头)


多项指标超越自我


来看Anthropic晒出的Claude Sonnet 4.5成绩单。


除了已经介绍过的Swe-bench和OSWorld之外,Claude Sonnet 4.5也在终端编程(Terminal-Bench)、工具使用(τ2-bench)等测试集中取得长足进步。


在高中水平的数学方面,AIME 2025试题中,如果借助Python,Claude Sonnet 4.5可以做到100%的准确率,不借助任何工具也能达到87%。


Claude Sonnet 4.5被炸出来了,依旧最强编程,连续30小时自主运行写代码


另外,Anthropic还专门展示了Claude Sonnet 4.5在金融、医疗、法律以及STEM等专业领域的表现。


在这四个领域当中,Claude Sonnet 4.5相比Sonnet 4,对战baseline模型的胜率均有大幅度提升,且在16K上下文、开启思考的情况下,均超过60%。


Claude Sonnet 4.5被炸出来了,依旧最强编程,连续30小时自主运行写代码


除了以上各种性能,Anthropic还重点强调了Claude Sonnet 4.5的对齐和安全性指标


通过安全训练,Anthropic减少了Claude Sonnet 4.5的谄媚、欺骗等不良行为;在智能体和计算机场景下,Claude Sonnet 4.5在防御即时注入攻击方面也取得了显著进展。


同时,针对正常内容的误报也有所降低,正常请求拒绝率从Sonnet 4时的0.15%下降到了0.02%。


Claude Sonnet 4.5被炸出来了,依旧最强编程,连续30小时自主运行写代码


Claude Sonnet 4.5的表现,获得了众多第三方的高度评价。


GitHub首席产品官Mario Rodriguez表示,Claude Sonnet 4.5让GitHub Copilot能更好地处理复杂的跨代码库任务。


Claude Sonnet 4.5被炸出来了,依旧最强编程,连续30小时自主运行写代码


Cognition联创兼CEO Scott Wu也表示,Claude Sonnet 4.5让Devin的规划能力和端到端评估成绩大幅度提升。


Claude Sonnet 4.5被炸出来了,依旧最强编程,连续30小时自主运行写代码


非编程类任务当中,也有金融机构的人工智能主管表示Claude Sonnet 4.5能够提供投资级的洞察。


Claude Sonnet 4.5被炸出来了,依旧最强编程,连续30小时自主运行写代码


最后说价格,Claude Sonnet 4.5提质不加价,与Sonnet 4保持一致,为3美元每百万输入token,15美元每百万输出token。


智能体SDK上线


除了发布模型更新,Anthropic还官宣了Claude Agent SDK,可以帮助开发者基于Claude Code构建智能体。


Claude Agent SDK前身为Claude Code SDK,最初的目的是提升Anthropic内部的开发效率。


更名之后,这个SDK从一个专注于代码任务的工具集,升级为一个构建通用、自主智能体的全面框架,支持构建个人助理、深度研究等各种类型的智能体。


工作流程上,Agent SDK将构建智能体的过程系统化为“收集上下文→采取行动→验证工作→重复”的循环。


Claude Sonnet 4.5被炸出来了,依旧最强编程,连续30小时自主运行写代码


在Agent SDK中,Anthropic解决了三个关键难题——智能体应该如何在长时间运行的任务中管理内存,如何处理平衡自主性与用户控制的权限系统,以及如何协调为实现共同目标而工作的子智能体。


此外Anthropic还发布了一个名为Imagine with Claude的新功能。


Claude Sonnet 4.5被炸出来了,依旧最强编程,连续30小时自主运行写代码


这个功能让Claude模型可以“实时生成软件”,只要你给一个需求或构思,它就可以即时动手写代码、搭界面、安排流程等,把你的想法变成可运行的原型或界面,整个过程无需借助已有模板。


Max订阅用户将可以在接下来的五天时间里进行尝鲜。


如果你对新的模型和功能感兴趣,就赶快试用起来,也欢迎在评论区交流使用体验~


参考链接:


[1]https://www.anthropic.com/news/claude-sonnet-4-5


[2]https://www.theverge.com/ai-artificial-intelligence/787524/anthropic-releases-claude-sonnet-4-5-in-latest-bid-for-ai-agents-and-coding-supremacy


[3]https://www.anthropic.com/engineering/building-agents-with-the-claude-agent-sdk


文章来自于微信公众号“量子位”,作者是“克雷西”。


AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md