全员 token-maxxing，但这场军备竞赛真正在烧什么

全行业都在比谁烧 token 烧得多。

但 4 月初，Anthropic 一刀切掉了第三方工具的 Claude Code 订阅配额——OpenClaw 等工具用户隔夜失去访问，连退订入口都来不及找。

我看到这条消息的第一反应不是"糟了，要涨钱了"——是"糟了，你愿不愿意烧 token 是一回事，能不能用到最好的模型是另一回事"。

后者卡住前者。这是 token-maxxing 叙事里没人讲的部分。

军备竞赛里，卖弹药的先赚到

token-maxxing 说的是全行业进入 token 消耗竞赛——不烧就落后，没人敢停。DeepSeek V4 和 GPT-5.5 同时发布，英伟达市值重破 5 万亿，算力扩张没有放慢的意思。

这个叙事很有传播势能，因为它准确捕捉了一种真实的焦虑：如果竞争对手在无限投入，而你没有，你会不会被甩开？

但我注意到一件有意思的事：最热衷于讲 token-maxxing 的人，自己押注的方向往往不是靠烧 token 竞争的应用层——而是 AI 工具层（降低使用门槛的那些产品）和物理执行层（机器人）。他们在讲这场竞赛的同时，投资的是这场竞赛结束之后的世界。

历史上每一场军备竞赛，最先赚到钱的从来不是打仗的人，是卖弹药的。英伟达不管谁赢都受益。AI 工具层不管你烧多少，你都要用工具。

真正在正面竞争、承压最重的，是应用层。壁垒最薄，切换成本最低，也是 token-maxxing 叙事最集中的地方。

公式里，量是最容易被复制的那个

我习惯把 AI 的实际产出拆成三个东西：

总输出 = token 量 × 模型质量 × 判断力质量

token 量，越来越便宜，趋向商品化。今天一百万 token 可能要几十块，明年可能是几块。任何人都可以堆量，堆了也不是护城河——因为别人也可以堆，而且成本只会更低。

模型质量，这是第一个真实的不对等。

Claude Code 有段时间突然用不了，我换了一个国内能访问的模型继续跑同一个任务。差距是多少？6 个小时，没做出来。换回 Opus，1 个小时。

但这里说的不只是时间。低智模型有一种特别坏的失败方式：它会自信地把错的东西交给你。代码语法正确，逻辑看起来没问题，跑起来就是不对——不是直接报错，是悄悄地做了错误的事。你发现问题，告诉它，它修了，但改动牵连出另一个地方。你再说，它再改，越绕越深。两个小时过去，你意识到这条路不对，但已经在泥潭里陷了很久。

高智模型不一样。它在开始时会先把边界搞清楚，一次给你一个真正跑得通的方案。出了问题它会承认，不会在错误方向上自信地绕下去。

那 5 个小时的差距，不只是效率，是完全不同的工作体验。低智模型做完还要花更多时间检查和修，坏的不只是这一个任务，是整个心流。

这是访问权的问题，不是意愿的问题。你愿意烧，但烧不到。

判断力，第三个，也是唯一真正难以复制的。

判断力有结构，一部分会被蒸馏掉

判断力不是一个整体。一部分会被模型吃掉，一部分永远不会。

会被吃掉的那部分，是可以被蒸馏的——重复性的、有标准答案的、历史数据足够的判断。想想一个见过几千张发票的审计师，他的判断是可以结构化的，可以变成训练数据，可以被模型接管。今天这类工作已经大量在被自动化了。

蒸馏之后会出现一个飞轮：模型处理常规判断 → 人的时间释放出来去处理更复杂的边缘案例 → 这些案例产生更高价值的数据 → 模型能力进一步扩大 → 循环。这个飞轮是真实的，而且在转。

但有两类判断，飞轮永远碰不到：

真正的首例。 从来没有发生过的情况，没有历史数据可参考。模型会给你一个自信的答案——因为它只会给自信的答案——但这个答案的依据是什么？它不知道自己不知道。

你想要什么。 目标的定义，价值权重的排序，什么东西不能妥协——这些永远是人的事，没有任何数据能替你决定。

做 Xisper 的时候碰到一个 Fn 键监听的技术问题。这不是难题——Typeless 已经做了，逻辑经过验证，AI 给出的最自然方向就是参考它的实现。高效，省事，大概率能跑。

但 Typeless 的方案有一个延迟。按下 Fn，停顿一下，才开始录音。

我的标准是：任何延迟都不能接受。

不是嫌烦，是产品逻辑。语音输入的核心体验是——你说，字就出来。中间有停顿，哪怕很短，用户都会觉得"这东西是不是坏了"，那种「流」的感觉就断了。这是产品的命门，不是偏好。

AI 不知道这件事。它只知道 Typeless 是成熟产品，它的实现经过验证。代码能跑，但方向是错的。

识别这件事，不是因为我更聪明，是因为我清楚自己要做什么。那个标准是我带进去的，不是 AI 能给我的。

对个人来说，逻辑和组织完全不一样

对组织来说，token-maxxing 的压力是真实的——竞争对手在烧，你不烧，短期内可能落后。但这里有一个风险常常被忽略：对单一供应商的依赖。

断供的消息，核心不是"成本涨了"，而是"如果链路断了，你有没有 Plan B"。如果整个产品的 AI 能力都压在一个模型上，断供不是涨价问题，是整条业务线暴露在风险里。分散访问权、建立备选，比烧多少 token 更重要。

对个人来说，逻辑完全不同。你不是在打资源消耗战，你是在用杠杆。

10 个有判断力的人，乘上 100 倍 token，可以顶原来 1000 人的有效产出。但 1000 人没有判断力，乘上再多 token，做出来的是 1000 份自信的错误。量不改变这个结构，只放大它。

访问权决定参与资格——你能用哪个模型，决定了你能做到什么程度。这一点，比烧多少重要得多。

所以断供的消息让我真正担心的，不是"我少烧了几百万 token"。

是"我用不到最好的模型了"。

前者是成本，后者是能力。这两件事之间的距离，就是 6 个小时和 1 个小时的距离。

量堆不出判断力。但有判断力，每个 token 才值。