我花三个月复刻了个 $30/月的产品，然后推翻了自己

我没付那 $30。不是付不起，是不服气。一个语音识别加大模型后处理，凭什么收这个价？我一个开发者，自己搞不定吗？

三个月后，我不仅搞定了，还把自己之前的判断推翻了大半。

今天这篇，不是产品评测，也不是教程。我想聊聊在这个过程里，我真正想清楚的一件事：在 AI 让所有人都能低成本实现“标准流程”的今天，产品的壁垒到底是什么？

一、“不就是 ASR + LLM”——我太天真了

先说背景。去年到现在，语音输入这个赛道突然热起来，导火索是一个叫 Typeless 的产品。月费，年度折合12/月。

各路人都在做类似的东西：智谱、豆包在免费铺量，闪电说在极客上越走越深，我自己也跳进来了。

我最初的判断很简单：这玩意儿技术上没有门槛，采集语音 → ASR 转文字 → LLM 后处理，三步走，套壳产品而已。

于是我自己动手做了一个，要求还挺高：数据安全、全本地离线。

很快就被现实教育了。

第一关：本地模型各有死角。

闪电说默认用的是阿里开源的 SenseVoice Small，这个模型在纯中文下比 Whisper 有优势，速度也快。但我的日常是开发者的中英夹杂——“这个 PR 要 fix 一下 memory leak”——碰到这种场景，SenseVoice Small 就开始发挥不稳定了。Whisper 的问题则反过来，英文强，中文弱。

两个本地模型，各有各的死角，没有一个能覆盖我的真实场景。

第二关：算力不可能在本地。

本地既要跑 ASR 又要跑 LLM，我的电脑还要不要干活了？高智能算力天然属于远端，这不是观点，是成本规律。

第三关：语音和键盘，是两种完全不同的思维模式。

《思考，快与慢》里说人类有两套认知系统：一套快速、直觉、不费力；一套缓慢、理性、需要专注。

语音输入用的是前者——快，但全是口水词、重复、跳跃。

键盘输入逼着你用后者——打字的过程中，大脑自动帮你格式化语言。

这道鸿沟，就是 LLM 后处理存在的理由。它不是锦上添花，是刚需。

二、准确率的价值，不是你想的那样

当时我有一个很自然的判断：ASR 识别越准，后处理压力越小；前面错了，后面 LLM 要花更多智能去弥补。

这个逻辑本身没错。但做着做着，我发现真正要担心的不是“噪声”，而是“语义偏移”。

信息论告诉我们：一段话所携带的信息总量是固定的。口语里的口水词、重复、不连贯，LLM 完全有能力从中提取核心信息——这本来就是大模型擅长的事。所以 ASR 阶段有点噪声，不是致命问题。

真正致命的，是语义层面的不可逆偏移。

举个我自己遇到的真实案例：我在说“PLG 产品推动增长”，ASR 把它识别成了“PLC”。

PLC 是工业控制器，和 PLG 完全不是一个领域的东西。但这个识别结果本身是合理的——PLC 确实存在，语音上两者也确实相近。

问题在于，这个错误往下游传递之后，LLM 没有任何办法知道这是识别错误。它会基于“PLC”去理解、去执行，整个后续的逻辑链全部偏了。

这不是噪声，是错误信息被当成事实向下传递。

类似的还有：Typeless 被识别成 Tabless，Claude Code 被识别成云 Code。每一个都是语义上的隐性错误，越往下游走，纠正成本越高。

所以准确率的真正价值，不是给 LLM 省事，而是防止系统在错误的语义上越走越远。

三、我做了两个“完美功能”，然后把它们都砍掉了

深挖下去之后，我开始理解 Typeless 那 $30 背后的门道了：ASR 的调参地狱、热词的前置后置、双流实时处理的设计取舍……每一个细节都是脏活。它替用户把这些全吃掉了。

但我还是觉得自己能做得更好，于是加了两个功能，又把它们都砍了。

第一个被砍的：场景动态识别。

想法是这样的：根据用户当前打开的软件，自动切换后处理风格。在飞书就用职场风润色，在微信就保留口语感，在代码编辑器里识别到指令就直接执行。

听起来很完美。

但越想越不对。这个功能要真正好用，用户得自己配置不同场景的提示词，得理解“职场风”和“口语风”的差别，得记住不同场景触发不同快捷键。每一步都在消耗用户的注意力，本质上是把复杂度转嫁给了用户。

更大的问题是：提示词一旦配错，或者场景判断出了偏差，后处理出来的文本语义就会被改变。我们在 ASR 层好不容易保住的语义准确性，在后处理层自己给破坏掉了。

这个功能表面上是“更聪明”，实际上是新的风险来源。砍。

第二个被砍的：实时 ASR 文本展示。

双流实时 ASR 可以一边说一边把识别结果显示出来，我当时觉得体验感很强。

结果一个朋友用了之后说：那些实时滚动的文字他完全不看，但那个界面侵占感让他很不舒服。他说：“我只需要知道它在跑，最后给我结果就行，中间过程我不 care。”

这句话点醒了我。

我一直在想怎么让产品“更聪明”、“更透明”，但用户真正要的，是更不打扰。这是两个完全不同的方向，而且前者恰恰是对后者的伤害。

这两次砍功能，是我在这个项目里做的最正确的两个决策。

四、Typeless 的那道缝

理解了它为什么值钱，我开始想它的边界在哪里。

Typeless 面对全球 C 端用户，它的模型权重里，“感冒”的识别优先级一定远高于“特发性肺纤维化”。哪怕它用了全球最好的 ASR 接口，在医疗场景下，它对专业术语的识别准确率就是不如一个针对医生微调过的模型。

同理，法律、金融、工程领域，都有大量大众词汇权重低、专业术语权重高的场景。

这是顶流产品天然的盲区：为了覆盖 80% 的大众用户，它不可能为 20% 的垂直场景，牺牲哪怕 0.1% 的大众体验。

而这 20%，恰好是企业愿意付费的地方。

一个主任医师，没有时间研究 ASR 接口、API Key、热词权重。他只知道：说了一堆术语，出来全是错别字，这工具没法用。但如果有一款工具，开箱即用，专门为医疗场景做过调教，他愿不愿意用？

什么样的调教？不是只用某一个“最好的”模型，而是知道什么时候用阿里的 ASR 对中文更准，什么时候用 Deepgram 对中英混输更友好，甚至同一句话里能根据语境动态路由。这件事自己折腾一遍至少一星期，我替他选好。

这就是那道缝。

不是靠功能创新挤进去的，而是靠愿意替某一个具体的群体，把那些没人愿意做的脏活吃干净。

后面我会专门写一篇，聊聊 ASR 选型里那些没人愿意讲的脏活——为什么没有“最好的模型”，只有“最合适的模型”。

五、我从中看到的，不只是语音输入法这件事

在 AI 让所有人都能低成本实现“标准流程”的今天，如果你的业务是标准的，你随时可能被一个用 AI 重新实现了你流程的竞争对手替掉。他们不需要比你更好，只需要更便宜，或者界面更顺手。

这类产品最需要做的一件事，是尽快让自己的服务变成 Agent 可调用的形式，把定价权握在自己手里。要不然，你的标准流程就是别人的训练素材。

反过来，越混乱的流程，越需要有人下场去定义它。能做到这件事的，不是掌握了最厉害技术的人，而是对某个具体的混乱角落有足够深的理解，并且愿意一件一件把那些说不清楚的脏活干完的人。

这是我从做语音输入法这件小事里，看到的一个略大一点的东西。

我还在做这个产品，Alpha 阶段，很多地方没想清楚。但我想把这个过程公开出来，持续迭代，持续写下去。

如果你也在某个垂直行业被现有工具折磨，或者你也在 AI 时代找自己的那道缝，欢迎来聊。

下篇见。

    修改于