没有最好的 ASR,只有死角和你最不重叠的那个
如果你现在去搜「ASR 模型推荐」,大概率会看到一张 benchmark 表格,然后有人告诉你:「用这个,WER 最低。」
我以前也这么想。直到我意识到,这个逻辑有一个根本性的漏洞。
一、Benchmark 是高德地图,但你要去的地方没有路
选 ASR 模型,很像用地图选路线。
高德告诉你某条路「全程高速、预计最快」。但如果你的目的地在一个没有匝道的服务区旁边,这条「最快的路」反而要绕一大圈。
Benchmark 就是那个「预计最快」——它测的是新闻播报、标准朗读、普通对话。在这个分布下谁的字错误率(WER)低,谁就是「最好的模型」。
但你的用户不说新闻播报。
Qwen3-ASR 在多个中英文及多语种 benchmark 上达到了开源模型的最优水平,与最强的商业 API 也具有竞争力。SenseVoice-Small 在中文和粤语识别上有明显优势,10 秒音频推理仅耗时 70ms,比 Whisper-Large 快 15 倍。
这些数字是真实的。问题是,它们描述的是一条「全程高速」——而你要去的地方,可能就在那个没有匝道的路口旁边。
二、每个模型,都有它到不了的地方
开发者社区里关于 ASR 的抱怨,有几个模式反复出现。
语言死角。 擅长英文的模型,碰到中英夹杂就开始掉链子。擅长中文的模型,碰到「这个 PR 要 fix 一下 memory leak」这种开发者日常,准确率同样下滑。没有一个模型能在所有语言组合下都表现稳定。
平台死角。 云端模型普遍存在内容过滤机制。某些用来表达语气的词,识别结果会被静默替换——你说的是一句话,出来的是另一句「干净但不是你说的话」。用户根本不知道识别结果被动过手脚。
语言判断死角。 不指定目标语言时,部分云端模型会在语言切换时出现判断偏差——中文输入,偶尔识别成日文或韩文。语音本身没问题,是语言检测层先出了问题。
场景死角。 这是最隐蔽的一种。有人在粤英混杂客服场景下做过对比测试,Qwen3-ASR 零样本 CER 约 36%,Whisper-Large-v3 约 61%——光这一个场景差距就接近 25 个百分点。微调之后 Qwen3-ASR 降到 16%,而 Whisper 仍在 42% 左右。
Whisper 在标准英文 benchmark 上领先,但换到粤英混杂的电话录音,差距拉开了 25 个百分点。不是模型变差了,是它的死角和这个场景撞上了。
三、反常识:最准的,可能恰好是你用不着的
这里有一个让很多人想不到的结论。
Benchmark 最强的模型,往往也是最贵的。性能越强的云端 API,通常成本越高。这不是巧合,是资源堆出来的代价。
但这笔账,在不同场景下完全不一样。
如果你做的是面向个人用户的效率工具,用最顶级的 ASR API,成本结构可能撑不住——用户愿意付的订阅费,覆盖不了你转嫁的 API 开销。这时候,「最准的模型」反而是让你活不下去的选择。
但如果你做的是医疗、法律这类垂直场景,账就完全反过来了。「特发性肺纤维化」被识别成「特发性肺纤维腺」,一个字的差错,在下游的核查和纠错成本,可能远高于 API 费用的差价。这时候,用次一级的模型「省钱」,省出来的是麻烦。
所以「贵的模型值不值」,不是一个有标准答案的问题。要看你替谁省钱,替谁省麻烦。
四、真正的选型逻辑
选 ASR,不是在问「哪条路最快」。
是在问「哪条路的堵点,和我要去的地方最不重叠」。再加一个权重:「如果真的堵上了,我的代价是多少。」
这两件事组合起来,才是真正的选型逻辑。
顺着这个逻辑再往下想一步:如果你做的是垂直行业工具,你并不需要 benchmark 最强的模型。你需要的是,在你的用户真正会说的那些词上,识别率足够高。这件事往往不需要顶级成绩,只需要有人愿意下场,把那个行业的术语、热词、语言习惯真正摸清楚。
能做到这件事的产品,才有定价权。不是因为它用了最贵的模型,是因为它替用户把那段「没有路的路」先走了一遍。
下篇: 知道了选什么模型,我以为剩下的事是堆功能。结果我做了两个「完美功能」,然后把它们都砍了。