GLM-4.6 首发实测:和 Claude 4.5 比怎么样?

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
GLM-4.6 首发实测:和 Claude 4.5 比怎么样?
7628点击    2025-10-01 17:12

核心速递:


  • GLM-4.6 发布,榜单排名提升,价格不变
  • 实测效果对齐 Claude 4,超越其他国产模型
  • GLM 开发者包月套餐升级,1/7 价格取得 Claude 4 9/10 的效果,值得使用


这个国庆节,AI 圈主打一个谁都不许放假。


前有 Deepseek-V3.2 开源,后有 Claude Sonnet 4.5 突袭,头部 AI 公司都挤在节前这两天秀肌肉。


在这场混战里,智谱也放出了新模型 GLM-4.6,迄今智谱最强的 Coding 模型


GLM-4.6 首发实测:和 Claude 4.5 比怎么样?


两个月前,我还在 深度评测智谱 GLM-4.5中大力推荐 GLM。


认为综合质量、成本、速度,GLM 毫无疑问是当时最值得使用的国产 Coding 模型。智谱也凭此在 Openrouter 上,模型调用收入一跃超过其他国产模型收入之和。


而这次 GLM-4.6,则带来了更多提升:


本文将从模型信息、实测效果(直接对比 Claude 4.5、Deepseek V3.2)、价格、综合结论等方面,给到有价值的实测参考信息。


💡 GLM 模型:特性一图速览


智谱这次只发 1 款模型:


GLM-4.6,大杯,355B-A32B。


在真实编程、上下文长度、token 效率、推理能力、Agent 任务等维度,全方位提升。


这是我总结的官方介绍一图流,方便你快速了解新特性:


GLM-4.6 首发实测:和 Claude 4.5 比怎么样?


提炼这次升级的重点:


  • Coding 能力升级:在 Claude Code 真实环境中,GLM-4.6 实际性能超越过往,比肩 Claude Sonnet 4
  • 上下文长度增加:由 128K 提升至 200K,能支持一次性分析更复杂的项目代码(新 DeepSeek V3.2 仍为 128K)
  • Tokens 消耗减少:与前代相比,同类任务可节省 30% 以上 tokens 消耗,干活更快,花钱更少。


所以,真正的问题来了:


作为上季度的最强国产 Coding 模型,GLM-4.6 在遇到 Claude Sonnet 4.5、DeepSeek V3.2 扎堆发布的情况,


是被迫原地踏步,还是再次超出预期?


🖥️ GLM-4.6:横测真实 Coding 场景


每次新模型的发布,用户在乎的其实是相对的结论:


1.新模型,在目标任务中,排全球/国内模型第几?


2.和当前在用的模型相比,有没有必要迁移?


以下是 GLM-4.6 和最新 Claude Sonnet 4.5、GPT-5 Codex、DeepSeek V3.2,


以及上代但足够优秀的 Gemini 2.5 Pro、Claude Sonnet 4 等 真实对比与结论。


也选了众多测试中,几个有代表性、方便观测对比差距的 Case,与你们分享:


1)经典素养测试:超长论文一图流生成


熟悉我的读者,应该知道我的经典 Benchmark:


让模型阅读长文后,自行提炼关键内容,总结生成一图流网页。


非常经典的任务设计,同时考验模型的长上下文任务表现、推理能力,以及前端 Coding 的质量与设计审美


模型水平提升很快,这次也增加了任务难度,让 AI 直接挑战论文的提炼,生成总结一图流 html。


我测试用的是 OpenAI 最近发布的 Paper:《How people are using ChatGPT》。


GLM-4.6 首发实测:和 Claude 4.5 比怎么样?


PDF 共 64 页,9.3 MB,需要分析提炼的内容量相当大。(其他模型统一用 Cherry Studio 调用 API 进行测试)


这是两次不同的对比结果,一次与最新模型比,一次与前代 & 自身比:


1)GLM-4.6 与新模型对比:DeepSeek V3.2、Claude Sonnet 4.5、GPT-5 Codex


GLM-4.6 首发实测:和 Claude 4.5 比怎么样?


  • GLM-4.6:产出的长图排版十分合理,内容丰富度也不错
  • DeepSeek V3.2 - reasoning :出现了部分图形空白,排版设计单一,重点不突出的问题
  • GPT-5 Codex:在文字呈现上较其他模型更丰富深入,像完整报告;但出现了排版溢出的微小瑕疵
  • Claude Sonnet 4.5:在布局结构、自主设计感上最具优势,详略得当(不过出现了一处数据幻觉,可以接受)
  • 新模型本轮排名Claude Sonnet 4.5 > GPT-5 Codex ≈ GLM-4.6 > DeepSeek V3.2


2)GLM-4.6 与前代对比:GLM-4.5、Claude Sonnet 4、Gemini 2.5 Pro、Qwen3-Max


GLM-4.6 首发实测:和 Claude 4.5 比怎么样?


  • GLM-4.6 比起 前代 4.5,在布局设计与推理理解(从内容结构与提炼上看),提升明显
  • 基本与 Claude Sonnet 4 持平?我感觉 GLM-4.6 似乎更好一点
  • Gemini 2.5 Pro 得益于其独特的结构化思维链,在内容提炼上有独特之处,读起来更容易理解。但前端设计略逊与 GLM
  • Qwen3 最近更新了一个 Max 版本,内容丰富度可以。但语言一致性上仍然存在问题,在中文 Prompt 下偏好输出英文,整体布局虽然没有 bug,但设计呈现效果不佳
  • 与前代对比结果:GLM-4.6 > Gemini 2.5 Pro ≈ Claude Sonnet 4 > GLM-4.5 ≈ Qwen3-Max


整体来看,不难发现这个趋势:


这一波 9 月底的 Coding 模型,在推理、上下文注意力、编程稳定性与前端审美,都有了新一轮明显的进步。


本轮测试结论:GLM-4.6 没全守住,但又做得效果非常好。


面对 Claude 4.5 全球最新的顶级模型,GLM-4.6 在设计与长文理解上确实还差一口气。


但它依旧巩固了国产 Coding 模型的一流水准较自身与前代国产模型有明显进步,甚至与 GPT-5 Codex 相比也互有长处。


考虑到它的高性价比,第一轮测试中,GLM-4.6 在自己的价格区间内,继续做到了最好。


2)垂直商业场景测试:利用统计数据,自行设计数据大屏


继续提升 Coding 任务难度:


我让 AI Deep Research 了24 年国庆节全国旅游数据,并把结果报告给到了 AI,


让其根据数据详情,自行设计一个静态数据大屏。


任务 Prompt 如下:


## 任务请为旅游行业的决策者,设计并开发一个“2024年国庆黄金周旅游数据智慧大屏”。最终成品需要在一个单页的HTML文件中包含所有代码,确保能直接在浏览器中打开运行。决策者需要通过这一块屏幕,快速、直观地了解2024年国庆假期的旅游市场全貌,把握核心亮点、发现潜在趋势。# 要求视觉: 非常专业、极度美观、一屏统览。信息: 高信息密度,关键指标一目了然,配合丰富的可视化图表。动态与交互: 数据加载时有动态效果,配合动效能够响应用户的操作。其他:不要引用外部组件,防止无法加载、显示的情况## 核心数据(以文本格式贴入 Prompt)[2024年国庆黄金周深度洞察报告], [表1:2024年国庆假期全国总体旅游数据], [表2:2024年国庆假期交通方式数据], [表3:2024年国庆假期部分省份旅游数据], [表4:2024年国庆假期文旅消费与活动数据], [表5:2024年国庆假期出入境旅游数据], [表6:2024年国庆假期游客画像数据]


这轮拉了 Claude Sonnet 4.5、GLM-4.5、Claude Sonnet 4、DeepSeek V3.2 - reasoning、Gemini 2.5 Pro ,与 GLM-4.6 进行对比。


在没有任何设计风格 Prompt 引导下,各个模型在 1 轮任务 + 1 轮优化后,各个模型生成的前端如图所示:


GLM-4.6 首发实测:和 Claude 4.5 比怎么样?


结果令人意外,本轮测试排名:


  • 第一梯队:GLM-4.6 ≈ Claude Sonnet 4.5
  • 第二梯队:Claude Sonnet 4 ≈ Gemini 2.5 Pro
  • 第三梯队:GLM-4.5 ≈ DeepSeek V3.2


这个结果,说实话,完全超出了我的预料,我本以为这会是 Claude 4.5 的主场,但 GLM-4.6 给足了惊喜


  • 在无任何额外 Prompt 指导下,GLM-4.6 取得的效果与 Claude 新模型 Sonnet 4.5 相比丝毫不逊色。更是较 DeepSeek V3.2 以及包括 Claude 4 在内的一众前代模型,有了长足的进步。
  • 而数据大屏一向是 To B 软件相当重要的商业化工作。按照 GLM-4.6 的本轮效果,对国内 To B 软件行业,绝对算是重大效率改进。


也难怪朋友 #赛博禅心 @大聪明 刚刚发布的公众号排版 Agent,其自动排版的底模也选择了 GLM-4.6。


GLM-4.6 首发实测:和 Claude 4.5 比怎么样?


一次胜出是巧合,那两次、三次呢?


可能不得不承认,在需要结合编程与审美的 Coding Agent 任务上,GLM-4.6 可能已经找到了自己的甜点区。


💰 如何定价?Coding Plan 全面升级


聊完了性能,我们再聊点更实在的——价格


Claude 一向很强,但是限于其高昂的计费价格($3/M input tokens),以及高达 $100~$200 刀,动辄就对国内封号的 Claude Code 套餐,还是让不少开发者没法下决心去付费。


GLM-4.6 首发实测:和 Claude 4.5 比怎么样?


而 GLM-4.6 发布后,除了常规按量付费定价如下外:


GLM-4.6 首发实测:和 Claude 4.5 比怎么样?


智谱也自动升级了 GLM-4.5 时期推出的 GLM Coding Plan 套餐


GLM-4.6 首发实测:和 Claude 4.5 比怎么样?


  • 模型升级:此前已订阅用户,自动升级至 GLM-4.6
  • 能力扩展:新增了图像识别与搜索能力
  • 更重要的是,价格方面:低至 ¥20/月,Lite/Pro/Max 计划分别每 5 小时提供 120/600/2400 次 Prompts 额度,每月总计可用总量高达几十亿到数百亿 tokens(大概是等量 API 价格的 0.1 折)
  • 平台兼容:支持 Claude Code、Roo Code、Kilo Code、Cline 等 10+ 编程工具


结合此前的测试结果,你或许可以把 GLM-4.6 视作……


⬇️


大概只用 Claude 1/7 的价格,换来真实开发场景中,超越昨天发布的 DeepSeek-V3.2,比肩 Claude Sonnet 4,甚至一些场景还能不弱于 Claude 4.5 的开发体验?


总之,数据不会撒谎:


自打 GLM-4.5 开放 Coding Plan 以来,智谱 MaaS 开放平台的 API 商业化,已实现 10 倍以上的增长


开发者们,早已用真金白银,进行了投票。


👉 在哪试用 GLM-4.6 ?


GLM-4.6 首发实测:和 Claude 4.5 比怎么样?


  • C 端对话:z.ai 、智谱清言已全面支持 GLM-4.6
  • API 使用:国内用户通过 bigmodel.cn ,海外用户通过 z.ai
  • 开源部署:GLM-4.6 将在 Hugging FaceModelScope 发布
  • GLM Coding Plan 购买:通过 bigmodel.cn 直接购买,支持个人与企业版两类套餐


🎐 写在最后:GLM-4.6,最好的国产 Coding 模型


写到这里,我对 GLM-4.6 的密集测试,总算暂告一段落。


说实话根本没想到在国庆节前最后 2 天,会迎来如此密集的模型发布。(本来都要去度假了……)


一方面,是调用成本降低 50% 的 DeepSeek V3.2,


一方面,Anthropic 家发布 Claude Sonnet 4.5 模型,再次刷新 AI Coding 能力天花板。


在这波 9 月底的模型扎堆迭代的“神仙打架”中,再回头看 GLM-4.6:


  • 经典长文一图流测试中,GLM-4.6 的综合表现稳压过了 DeepSeek V3.2 新品与国内其他模型,比肩 Claude 4,甚至能与 GPT-5 Codex 有来有回
  • 在本轮贴近商业开发场景的数据大屏测试中,甚至与 Claude 4.5 相比也不逊色,更是明显优于前代模型


这些实测结果,让最后的结论变得不言而喻:


结合性能以及越来越值的 GLM Coding Plan ,GLM-4.6 守住了它「国产最好用 Coding 模型」称号


GLM-4.6 可能还无法在每一个维度上都比肩像 Claude 4.5 这样“天花板”级别的存在,但它用一个极具诚意的价格,为你提供了一个在绝大多数场景下都“足够好用”,甚至时常有惊喜的 Coding 模型选择。


还是那句话,如果你有 Coding、Agent 任务需求,并且在乎“用得爽”和“用得起”,GLM-4.6 绝对值得你花时间亲自上手试试


我也很期待你的实测反应与反馈。


希望一泽的文章对你有所启发。


文章来自于微信公众号 “一泽Eze”,作者 “一泽Eze”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0