最强Claude比黄金还贵，有人用省token.skill 立降65%，还有10个小妙招

9082点击 2026-04-09 15:21

Anthropic 发布了史上最强的模型 Claude Mythos。

也是史上最贵的。25/125 美元每输入/输出百万 Token，作为对比，Claude Sonnet 4.6 的价格是 3/15 美元——贵了将近 8 倍。

而这还只是 API 价格。Mythos 目前根本没有对普通用户开放，因为能力太强，Anthropic 自己都没想好怎么给我们用。

最强，也最贵。这两件事放在一起，某种程度上已经预示了接下来的走向：

模型越来越聪明，Token 越来越值钱，我们跟 AI 说话的成本，也越来越高。

但眼下的问题还不用等到 Mythos。就是普通的 Agent，甚至是对话聊天，在各种 Skill、记忆系统的加持下，发一句「你好」，都有可能用掉 13% 的月度 Token 额度。

最强Claude比黄金还贵，有人用省token.skill 立降65%，还有10个小妙招

Reddit 讨论帖链接：https://www.reddit.com/r/Anthropic/comments/1s8wwra/13_usage_for_one_hello_is_insane_max20_plan/

AI 是越来越聪明，但我们可能快要跟它「说不起话」了。

怎么节省 Token 成了这段时间以来，社交媒体上热议的话题。

有人提出用文言文的方式和 AI 聊天，毕竟古人说话字斟句酌，没有半点废话；还有人想到在不同的模型之间快速切换，用聪明的 Claude 指定策略、Gemini 进行深度研究、然后 ChatGPT 来完成枯燥的流程工作。

这种感觉很像回到了 2000 年还没有数据流量的时候，用手机短信和朋友聊天，0.1 元/条，每条短信还有字数限制，超过字数会自动计算为两条短信，所以一定得事先组织好语言，把要讲的事情在一条短信内说清楚。

回到大模型，在对话框里每按一次发送，一边要担心上下文窗口有限，一边也在想这次又要花掉我多少 Token。

当个山顶洞人，回到石器时代

以文言相与，观若用字更少，然其实果更省乎？

前段时间，有网友在 X 上发梗图讨论用文言文，是不是能减少 Token 的使用。毕竟文言文相比白话文，用的字更少，把我们的语言都压缩成「之乎者也」的表达，所消耗的 token 按理说也会更少。

评论区都在调侃，这是在用人脑的 Token 来弥补 AI Token。

最强Claude比黄金还贵，有人用省token.skill 立降65%，还有10个小妙招

我们的大脑编译文言文不用花钱，消耗再多 Token 倒也无所谓；但真实的情况是，

消耗了脑力，写出了像模像样的文言文，最后并没有减少 Token 的使用。

对于大语言模型来说，越常用的词占用的 Token 越少，它并不是按照文字的长短来定义数量，而是依据语义进行划分。

就像下面的例子，一开始使用文言文只有 21 个字符，但是 Token 数也是 20，切换到白话文，字符数来到 31 个，Token 数依然是 21。

最强Claude比黄金还贵，有人用省token.skill 立降65%，还有10个小妙招

Token 计算：https://platform.openai.com/tokenizer

更离谱的是，我们之前分享过的 GPT-4o 词元污染，

输入一串 8 个字符的短语，在 AI 大模型眼里只占用了 1 个 Token。

而对于一些非常用字，例如「无恙」，ChatGPT 会将其编码成 3 个 token，因为「恙」会变成乱码。

最强Claude比黄金还贵，有人用省token.skill 立降65%，还有10个小妙招

文言文不行，又有开发者提出回到石器时代，用穴居人的方式和 AI「对话」。

一个名叫 caveman 的项目这几天在 GitHub 上走红，和用文言文玩梗不同，这个项目实打实地做了一些测试，并给出了可以复现的 benchmark。

在展示的多项基准任务里面，使用 Cavemen 项目之后，能节省约 65% 的 Token，同时能保证输出内容的 100% 准确。

最强Claude比黄金还贵，有人用省token.skill 立降65%，还有10个小妙招

测试结果显示，在标准软件工程任务上，平均压缩率达到 65%，而且推理令牌不受影响，只有输出有效载荷被压缩。项目链接：https://github.com/JuliusBrussee/caveman

具体的做法是通过一个 Skill 来实现，它会在发送给大模型的请求中，强制加入特定的角色设定和指令，从源头上阻止模型讲废话。

它会要求模型停止使用客套话（如「Sure I'd be happy to」）、去除冠词（a, an, the）以及避免使用模棱两可的词汇（如「It might be worth considering」）。

同时，它也要求模型必须保留代码块、错误信息和专业技术术语的原样。

最强Claude比黄金还贵，有人用省token.skill 立降65%，还有10个小妙招

而关于深度思考方面，Caveman 只会影响输出 Token，模型寻找 Bug、梳理逻辑的内部推理过程依然是完整且庞大的。当模型结束思考，准备「开口」给我们解释时，它受到了 caveman 指令的约束，只用最少的输出 Token 把结论输出。

除了让模型「说山顶洞人的话」来节省输出 Token，这个项目还提供了一个 caveman-compress 脚本来让模型「少阅读」。

它可以将我们的项目记忆文件（如 CLAUDE.md）预先重写并压缩成「山顶洞人语版本」。这样一来，每次我们开启新会话时，大模型需要读取的输入 Token (Input Tokens) ，经过测试减少了约 45%，实现了输入和输出的双重节省。

最强Claude比黄金还贵，有人用省token.skill 立降65%，还有10个小妙招

目前这个项目在 GitHub 上已经拿下了快有 6000 个 Stars。然后很快又有网友给出了「山顶洞人-压缩版」，通过进一步压缩 Caveman 项目的输入来减少 Token。

最强Claude比黄金还贵，有人用省token.skill 立降65%，还有10个小妙招

Caveman 的开发者在项目说明文档里面提到，使用山顶洞人的模式是有科学依据的，他提到了今年 3 月的一篇名为《Brevity Constraints Reverse Performance Hierarchies in Language Models》（简短约束逆转了语言模型的性能层级）的论文。

研究发现，大模型的客套话和长篇大论有时是一种 debuff。

强制大型模型给出简短的回复，不仅没有让它变笨，反而使其在某些基准测试上的准确率提高了 26 个百分点。

最强Claude比黄金还贵，有人用省token.skill 立降65%，还有10个小妙招

简洁性的约束消除了反向规模效应。（A）三个条件下的表现显示，在简洁性约束下，大模型显著提升（控制组：40.2% → 简洁组：66.5%，+26.3 个百分点）。（B）差距缩小在不同数据集上有所变化，在 GSM8K 和 MMLU-STEM 中甚至出现完全反转，在简洁条件下大模型表现更优。（C）响应长度验证确认该干预成功操控了冗长度（控制组：197 个 token → 简洁组：78 个 token，减少 60%），从而建立了过度思考与性能下降之间的因果联系。论文链接：https://arxiv.org/abs/2604.00025

去年，视频会议公司 Zoom 也发布了一篇论文，《Chain of Draft: Thinking Faster by Writing Less》（草稿链：通过少写来更快思考），提出了一种全新的大语言模型推理策略，解决了现有方法中太啰嗦且成本高的问题。

传统的思维链（Chain-of-Thought, CoT）虽然能帮助大模型通过分步推理来解决复杂任务，但这种方法要求模型在给出最终答案前生成大量详细的中间步骤。这导致了极高的计算资源消耗、更长的输出长度以及更高的延迟。

我们人类在解决复杂问题，如数学题或写代码时，通常不会把所有思考细节都长篇大论地写下来。我们习惯于只记录简短的「草稿」或核心信息来推进思考。

论文也是受此启发，希望让大模型也模仿这种高效、极简的策略。作者提出了 CoD（草稿思维链）。

在提示词设计上，CoD 同样要求模型一步一步地思考，但做了一个关键限制：每个推理步骤只保留最精简的草稿，最多不超过 5 个词。

例如，在解决简单的数学应用题时，CoT 可能会输出几段完整的句子来描述题意，而 CoD 只需要模型输出类似 x=20-12=8 这样最核心的公式即可。

最强Claude比黄金还贵，有人用省token.skill 立降65%，还有10个小妙招

比较 Claude 3.5 Sonnet 在三种不同提示策略下（直接回答（Standard）、思维链（CoT）和草稿链（CoD））在不同任务中的准确性和令牌使用情况。CoD 在实现与 CoT 相似准确性的同时，使用的令牌数量显著更少。论文链接：https://arxiv.org/abs/2502.18600

结果，CoD 在保持甚至超越 CoT 准确率的同时，消耗的 Token 数量大幅减少，最低仅为 CoT 的 7.6%。

两个研究，都是通过 Skill 或提示词的方式，来强制限制模型的输出长度。CoD 的提示词同样直接，要求模型，「一步一步思考，但每个思考步骤只保留最少的草稿，最多 5 个词」。

更实用的十个 Token 节省方案

除了使用 Caveman 的 Skill，有网友还总结了更完整的节省 Token 十大诀窍。

1、在已发送的消息上修改，而不是另发一条消息

当 AI 回答不符合我们的预期时，尽量不要发一条「不对，我是指……」来跟进。

因为每发一条新消息，大模型都要把前面的所有聊天记录重新读一遍，导致 Token 消耗成倍翻滚。正确的做法是：直接点击原消息的「编辑」按钮，修改提示词，然后重新生成。

最强Claude比黄金还贵，有人用省token.skill 立降65%，还有10个小妙招

消息越多，消耗的 token 也越多。原文来源：https://x.com/0x\_kaize/status/2038286026284667239

2、每 15–20 条消息就开启一个新对话

长对话是 Token 的无底洞，在一百多条消息的对话中，可能有 98.5% 的 Token 都浪费在让 AI 重读历史记录上。

当对话变长时，我们可以让 AI 先总结一下当前进度，然后拿着这段总结去开一个新的对话。

3、将所有问题都集中到一个消息里面发送

不要把「总结这篇文章」、「列出这篇文章的要点」、「给这篇文章想个标题」分成三条消息发送。

把它们合并成一段完整的提示词，不仅能减少系统加载上下文的次数，还能让 AI 因为看到了全貌而给出更高质量的回答。

4、把反复使用的文件上传到 Projects 中

如果我们在多个聊天窗口里反复上传同一份长文档，每次上传都会重新消耗大量的 Token。

这个时候我们可以利用 Projects 的缓存功能，文件只需上传一次，后续在这个项目里怎么问关于这份文件的内容，都不会再重复烧 Token 了。

5、提前设置好「记忆」与用户偏好

大多数时候，我们会按照以前的提示词技巧，在发每次开新对话时，都会「浪费额度」去写「现在你是一个文案策划，用轻松的语气写……」。

最强Claude比黄金还贵，有人用省token.skill 立降65%，还有10个小妙招

现在 AI 都有用户偏好和记忆功能，我们可以把职业、行文风格、项目信息等偏好保存在设置里，它就会自动生效，帮我们省下大量重复交代背景的 Token。

6、关掉不需要的附加功能

联网搜索（Web search）和高级思考（Advanced Thinking）等功能只要开着，每一轮都会额外消耗 Token。

除非我们对初步的回答不满意，或者明确需要这些功能，平时在简单地聊天时，可以关闭这些附加功能。

7、用不同的模型解决不同的问题

一些简单的任务，像检查语法、简单排版、快速翻译这些基础活，完全可以使用成本最低的 Haiku 模型。把节省下来 50%–70% 的额度，留给那些真正需要深度思考的复杂任务，交给 Sonnet 或 Opus。

最强Claude比黄金还贵，有人用省token.skill 立降65%，还有10个小妙招

8、把工作分散到全天的不同时段

Claude 的使用限制是基于「滚动 5 小时」窗口来计算的，而不是半夜统一清零。

如果我们早上把额度耗光了，下午就会很难受。建议把工作分成早、中、晚几个时段，这样额度会不断自动恢复。

9、尽量避开高峰时段

从 2026 年 3 月 26 日开始，如果在工作日的高峰期（太平洋时间早上 5 点到 11 点）使用，同样的请求会更快地消耗限额。如果把重度耗费算力的任务挪到非高峰期（比如晚上或周末），额度会经用得多。

最强Claude比黄金还贵，有人用省token.skill 立降65%，还有10个小妙招

这是基于 Claude 之前推出的错峰双倍福利，一方面是 Anthropic 的尖峰服务器压力大，给一些福利希望用户在平谷时候使用 Claude，另一方面也确实给北京时间的用户实实在在的优惠。

目前在 Cursor 等应用内使用大模型，有时候还是会碰到请求过多的提示，尤其是在晚上的时间。

10、开启超额使用 (Extra Usage)作为安全网

如果是 Claude 付费用户，可以在设置里开启超额功能并设定预算上限。

这个方法虽然不省 Token，但可以保证当我们的额度耗尽时，系统会自动切换到按量计费，防止在十万火急的工作关头突然被强制阻断。

无论是靠 Skills 还是我们自己调整提示词，这些方案的底层逻辑都是要减少毫无意义的上下文重读。从千禧年按字算钱的短信，到如今按 Token 计费的大模型，人类追求沟通效率的本质其实从未改变。

在使用 AI 的过程中，逐渐养成这些习惯，用「山顶洞人」的语言，只说重点，把 Token 用在刀刃上，或许是这个 Token 堪比真金白银的时代，最顶级的提示词技巧。

Less is More.

文章来自于"APPSO"，作者 "APPSO"。

关键词: AI新闻 , Claude Mythos , claude , Caveman , Caveman skill

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0