我把一个AI产品的商业逻辑推了五层，推到最后发现：中小创业者可能无路可走

从一款语音输入法开始，一层层追问，直到触及AI创业最残酷的真相。

前几天深度研究了一款叫"闪电说"的AI语音输入法。

不是为了评测产品好不好用，而是想搞清楚一个问题：在AI时代，一个中小团队做toC产品，到底还有没有活路？

研究完之后，我觉得这个问题值得写出来。因为它不止关乎闪电说这一款产品，而是关乎所有正在做、或者想做AI产品的人。

01 故事的开始

闪电说是一款语音输入法。你按一个快捷键开始说话，它把你的语音转成文字，写入当前的输入框。

创始团队两个人——余猛和龚震。余猛23岁就做过百万级用户产品，龚震在Monica做过从0到1000万美金ARR的增长。两个人从2024年初开始，只做跟"声音"相关的事情，前后迭代了4个方向，最后落在了语音输入法。

最初的定位非常清晰：

用阿里的SenseVoice Small，一个2.7亿参数的小模型
完全在本地运行，0.2秒延迟
不联网，不上传数据，完全隐私
免费

听起来完美。但有一个致命问题：本地小模型的中文识别准确率大概90-95%。

90%什么概念？每说100个字，有5-10个字是错的。加上口语里的语气词、重复词、环境噪音，实际体验更差。你说完一段话，还得自己回头一个字一个字改。

有时候还不如直接打字。

02 第一个矛盾：隐私 vs 准确率

准确率不够怎么办？接云端ASR。

于是闪电说在后续版本里接入了豆包、智谱、OpenRouter等云端语音识别API。但让用户自己去各个平台申请API Key，自己配置。

品牌叙事立刻崩了一半——你主打"数据从不离开你的电脑"，但现在语音要发到豆包的服务器上？

更大的问题是：用户根本配不明白。

龚震自己在一次公开访谈里说了这些数据：

50%的用户开了AI纠错功能
但真正配好API Key的，只有不到20%
中间30%的人——想用，配不明白

这30%不是不想付钱的人，是想付钱但你没给他付钱的地方的人。

03 第二个矛盾：你免费，但大厂更免费

2025年11月，字节的豆包输入法上线了。

Seed-ASR，准确率98%+
开箱即用15种方言
150MB离线模型，弱网环境也能用
完全免费，无广告

2025年12月，智谱的AI输入法（AutoGLM）发布了。

GLM-ASR，字符错误率仅7%
耳语模式——你小声说也能识别
内置翻译、改写、Vibe Coding
永久免费，模型还开源了

闪电说原来的每一个卖点，被大厂逐条碾压：

你的卖点大厂怎么做的本地离线豆包也有150MB离线模型隐私大厂也说核心输入本地处理免费大厂永久免费，还零配置方言豆包15种方言，准确率98.2%

大厂为什么能免费？

因为它们不靠输入法赚钱。字节的输入法是数据入口——你每天说的话都在喂模型。智谱的输入法是模型展示——让开发者看到GLM-ASR有多能打。

成本在母公司别的业务线上回收了。你一个2人创业团队，用"免费"去打这种对手？

04 那中间商模式呢？

龚震说过一句话：“做AI应用，本质就是在卖token，跟深圳做跨境电商没区别。”

逻辑是这样的：个人用户直接买豆包ASR大概4-6块/小时，但如果你作为企业批量采购，可能拿到1.5-3块/小时。你包装一下卖3-4块/小时，用户省钱，你赚差价，体验还更好。

这个中间商逻辑对不对？在大厂下场之前是对的。

但豆包自己出了免费输入法之后呢？谁还会通过你付费去调一个本身就提供免费完整产品的API？

中间商能存在的前提是：上游只卖原材料，不做成品。 但在AI行业，你的上游供应商就是终端产品制造商。字节做了ASR，也做了输入法。智谱训了模型，也做了输入法。

这就像你开了一家奶茶店，然后茶叶供应商在你隔壁也开了一家，而且不要钱。

05 那做垂直场景呢？

好，大厂做通用产品，我做垂直场景。比如医疗语音输入——帮医生把口述的诊断变成标准病历。

你的价值在哪？在ASR之后的那一层：医疗术语热词库、上下文纠错、病历格式化模板、患者信息脱敏。

但医疗行业已经有卫宁健康、东华医为这些龙头SaaS了。 它们比你更懂医疗场景，有更多医院客户关系，有更多数据积累。要加一个"语音输入"功能，就是调一下ASR API加一套自己的术语库，两个工程师两周就做完了。

法律行业有iCourt，金融行业有恒生，每个高价值垂直场景都有龙头。你的"垂直场景知识壁垒"，在行业SaaS面前不值一提。

06 那做个人记忆/个人AI呢？

闪电说创始人的长期愿景是"个人记忆/个人模型"——语音输入是入口，真正的产品是"懂你的AI"。

但这个方向也已经是红海了：

Mem0（开源Memory层）
Letta/MemGPT（长期记忆管理）
Limitless（前Rewind，全天候记录）
Apple Intelligence（设备端个人上下文）

核心技术——向量数据库、RAG、长期记忆管理——全部开源可得。从一个"没壁垒的工具"跳到另一个"没壁垒的方向"，不是突围，只是换了个坑。

07 终极追问：操作系统都在内置了

macOS自带Dictation，Windows有Win+H语音输入，iOS/Android都有系统级语音识别。

目前体验还不够好，没有AI纠错、没有Agent模式。但这些能力Apple和微软每年都在加。

语音输入最终大概率会像手电筒App一样——被操作系统吸收，成为"功能"而不是"产品"。

08 推到底之后

现在把整条链拉出来看：

ASR模型层        → 大厂碾压，你训不起
后处理LLM层      → 大厂碾压，已经内置了
垂直场景知识层    → 行业SaaS碾压
个人记忆/个人AI   → 开源红海，没壁垒
操作系统内置      → 终局是功能被系统吸收

每一层都有比你更强的玩家。语音输入作为独立产品品类，长期可能不成立。

09 那为什么Wispr Flow还能融几千万美元？

这是一个好问题，也是最重要的问题。

答案是：投资人赌的不是"语音输入是终局赛道"。

投资人赌的是这个团队能在窗口期——操作系统和大厂还没完全覆盖的这6-12个月里——拿到足够多的用户、积累足够多的场景认知，然后进化出下一个东西。

历史上太多这样的例子了：

YouTube最初是约会网站的视频上传功能
Instagram最初是签到App Burbn里的照片滤镜
Slack是一个失败的游戏公司内部做的通讯工具

最终成功的产品，创始人在做第一个产品时根本不知道它存在。它是在过程中涌现出来的。

余猛在"声音"方向上已经迭代了4次。闪电说可能不是终局产品，但它是他找到终局产品路上的第四个台阶。

10 对所有AI创业者的意义

这件事不只关乎闪电说。把它抽象出来，是所有AI产品创业者面对的同一个问题：

当你的上游供应商可以零成本做你的产品时，你还剩什么？

不是技术——ASR是大厂的，LLM是大厂的，技术全是采购的。

不是场景——垂直行业有龙头SaaS，它们比你更懂用户。

不是"免费"——大厂的免费是交叉补贴，你的免费是烧命。

你真正拥有的，只有一样东西：在一个暂时有缝隙的市场里活下来，并在下一个缝隙出现时第一个钻进去的速度和判断力。

这不是一个让人兴奋的结论。

但我觉得这是在AI时代做产品最诚实的认知。

不要执着于"找到一个大厂不做的切入点"——因为这个点可能不存在，或者今天存在、明天就被大厂填上。

要做的是：让自己成为那个比所有人更快找到下一个点的人。

活着，保持嗅觉，快速迭代。

这可能是创业者唯一确定的策略。

本文基于闪电说v0.5.7（2026-01-23）、豆包输入法（2025-11上线）、智谱AI输入法/AutoGLM（2025-12发布）、TypeLess、Wispr Flow五款产品的公开信息分析。创始人数据来源：腾讯新闻《做AI应用像卖奶茶：闪电说团队的探索实录》（2026-01-17）。技术参数来源：字节Seed-ASR官方技术博客、智谱GLM-ASR官方文档、阿里SenseVoice开源社区。定价数据来源：typeless.com、wisprflow.ai、火山引擎官方文档。