全行业都在比谁烧 token 烧得多。

但 4 月初,Anthropic 一刀切掉了第三方工具的 Claude Code 订阅配额——OpenClaw 等工具用户隔夜失去访问,连退订入口都来不及找。

我看到这条消息的第一反应不是"糟了,要涨钱了"——是"糟了,你愿不愿意烧 token 是一回事,能不能用到最好的模型是另一回事"。

后者卡住前者。这是 token-maxxing 叙事里没人讲的部分。

军备竞赛里,卖弹药的先赚到

token-maxxing 说的是全行业进入 token 消耗竞赛——不烧就落后,没人敢停。DeepSeek V4 和 GPT-5.5 同时发布,英伟达市值重破 5 万亿,算力扩张没有放慢的意思。

这个叙事很有传播势能,因为它准确捕捉了一种真实的焦虑:如果竞争对手在无限投入,而你没有,你会不会被甩开?

但我注意到一件有意思的事:最热衷于讲 token-maxxing 的人,自己押注的方向往往不是靠烧 token 竞争的应用层——而是 AI 工具层(降低使用门槛的那些产品)和物理执行层(机器人)。他们在讲这场竞赛的同时,投资的是这场竞赛结束之后的世界。

历史上每一场军备竞赛,最先赚到钱的从来不是打仗的人,是卖弹药的。英伟达不管谁赢都受益。AI 工具层不管你烧多少,你都要用工具。

真正在正面竞争、承压最重的,是应用层。壁垒最薄,切换成本最低,也是 token-maxxing 叙事最集中的地方。

公式里,量是最容易被复制的那个

我习惯把 AI 的实际产出拆成三个东西:

总输出 = token 量 × 模型质量 × 判断力质量

token 量,越来越便宜,趋向商品化。今天一百万 token 可能要几十块,明年可能是几块。任何人都可以堆量,堆了也不是护城河——因为别人也可以堆,而且成本只会更低。

模型质量,这是第一个真实的不对等。

Claude Code 有段时间突然用不了,我换了一个国内能访问的模型继续跑同一个任务。差距是多少?6 个小时,没做出来。换回 Opus,1 个小时。

但这里说的不只是时间。低智模型有一种特别坏的失败方式:它会自信地把错的东西交给你。代码语法正确,逻辑看起来没问题,跑起来就是不对——不是直接报错,是悄悄地做了错误的事。你发现问题,告诉它,它修了,但改动牵连出另一个地方。你再说,它再改,越绕越深。两个小时过去,你意识到这条路不对,但已经在泥潭里陷了很久。

高智模型不一样。它在开始时会先把边界搞清楚,一次给你一个真正跑得通的方案。出了问题它会承认,不会在错误方向上自信地绕下去。

那 5 个小时的差距,不只是效率,是完全不同的工作体验。低智模型做完还要花更多时间检查和修,坏的不只是这一个任务,是整个心流。

这是访问权的问题,不是意愿的问题。你愿意烧,但烧不到。

判断力,第三个,也是唯一真正难以复制的。

判断力有结构,一部分会被蒸馏掉

判断力不是一个整体。一部分会被模型吃掉,一部分永远不会。

会被吃掉的那部分,是可以被蒸馏的——重复性的、有标准答案的、历史数据足够的判断。想想一个见过几千张发票的审计师,他的判断是可以结构化的,可以变成训练数据,可以被模型接管。今天这类工作已经大量在被自动化了。

蒸馏之后会出现一个飞轮:模型处理常规判断 → 人的时间释放出来去处理更复杂的边缘案例 → 这些案例产生更高价值的数据 → 模型能力进一步扩大 → 循环。这个飞轮是真实的,而且在转。

但有两类判断,飞轮永远碰不到:

真正的首例。 从来没有发生过的情况,没有历史数据可参考。模型会给你一个自信的答案——因为它只会给自信的答案——但这个答案的依据是什么?它不知道自己不知道。

你想要什么。 目标的定义,价值权重的排序,什么东西不能妥协——这些永远是人的事,没有任何数据能替你决定。

做 Xisper 的时候碰到一个 Fn 键监听的技术问题。这不是难题——Typeless 已经做了,逻辑经过验证,AI 给出的最自然方向就是参考它的实现。高效,省事,大概率能跑。

但 Typeless 的方案有一个延迟。按下 Fn,停顿一下,才开始录音。

我的标准是:任何延迟都不能接受。

不是嫌烦,是产品逻辑。语音输入的核心体验是——你说,字就出来。中间有停顿,哪怕很短,用户都会觉得"这东西是不是坏了",那种「流」的感觉就断了。这是产品的命门,不是偏好。

AI 不知道这件事。它只知道 Typeless 是成熟产品,它的实现经过验证。代码能跑,但方向是错的。

识别这件事,不是因为我更聪明,是因为我清楚自己要做什么。那个标准是我带进去的,不是 AI 能给我的。

对个人来说,逻辑和组织完全不一样

组织来说,token-maxxing 的压力是真实的——竞争对手在烧,你不烧,短期内可能落后。但这里有一个风险常常被忽略:对单一供应商的依赖。

断供的消息,核心不是"成本涨了",而是"如果链路断了,你有没有 Plan B"。如果整个产品的 AI 能力都压在一个模型上,断供不是涨价问题,是整条业务线暴露在风险里。分散访问权、建立备选,比烧多少 token 更重要。

个人来说,逻辑完全不同。你不是在打资源消耗战,你是在用杠杆。

10 个有判断力的人,乘上 100 倍 token,可以顶原来 1000 人的有效产出。但 1000 人没有判断力,乘上再多 token,做出来的是 1000 份自信的错误。量不改变这个结构,只放大它。

访问权决定参与资格——你能用哪个模型,决定了你能做到什么程度。这一点,比烧多少重要得多。

所以断供的消息让我真正担心的,不是"我少烧了几百万 token"。

是"我用不到最好的模型了"。

前者是成本,后者是能力。这两件事之间的距离,就是 6 个小时和 1 个小时的距离。

量堆不出判断力。但有判断力,每个 token 才值。