从一款语音输入法开始,一层层追问,直到触及AI创业最残酷的真相。
前几天深度研究了一款叫"闪电说"的AI语音输入法。
不是为了评测产品好不好用,而是想搞清楚一个问题:在AI时代,一个中小团队做toC产品,到底还有没有活路?
研究完之后,我觉得这个问题值得写出来。因为它不止关乎闪电说这一款产品,而是关乎所有正在做、或者想做AI产品的人。
01 故事的开始
闪电说是一款语音输入法。你按一个快捷键开始说话,它把你的语音转成文字,写入当前的输入框。
创始团队两个人——余猛和龚震。余猛23岁就做过百万级用户产品,龚震在Monica做过从0到1000万美金ARR的增长。两个人从2024年初开始,只做跟"声音"相关的事情,前后迭代了4个方向,最后落在了语音输入法。
最初的定位非常清晰:
- 用阿里的SenseVoice Small,一个2.7亿参数的小模型
- 完全在本地运行,0.2秒延迟
- 不联网,不上传数据,完全隐私
- 免费
听起来完美。但有一个致命问题:本地小模型的中文识别准确率大概90-95%。
90%什么概念?每说100个字,有5-10个字是错的。加上口语里的语气词、重复词、环境噪音,实际体验更差。你说完一段话,还得自己回头一个字一个字改。
有时候还不如直接打字。
02 第一个矛盾:隐私 vs 准确率
准确率不够怎么办?接云端ASR。
于是闪电说在后续版本里接入了豆包、智谱、OpenRouter等云端语音识别API。但让用户自己去各个平台申请API Key,自己配置。
品牌叙事立刻崩了一半——你主打"数据从不离开你的电脑",但现在语音要发到豆包的服务器上?
更大的问题是:用户根本配不明白。
龚震自己在一次公开访谈里说了这些数据:
- 50%的用户开了AI纠错功能
- 但真正配好API Key的,只有不到20%
- 中间30%的人——想用,配不明白
这30%不是不想付钱的人,是想付钱但你没给他付钱的地方的人。
03 第二个矛盾:你免费,但大厂更免费
2025年11月,字节的豆包输入法上线了。
- Seed-ASR,准确率98%+
- 开箱即用15种方言
- 150MB离线模型,弱网环境也能用
- 完全免费,无广告
2025年12月,智谱的AI输入法(AutoGLM)发布了。
- GLM-ASR,字符错误率仅7%
- 耳语模式——你小声说也能识别
- 内置翻译、改写、Vibe Coding
- 永久免费,模型还开源了
闪电说原来的每一个卖点,被大厂逐条碾压:
你的卖点大厂怎么做的本地离线豆包也有150MB离线模型隐私大厂也说核心输入本地处理免费大厂永久免费,还零配置方言豆包15种方言,准确率98.2%
大厂为什么能免费?
因为它们不靠输入法赚钱。字节的输入法是数据入口——你每天说的话都在喂模型。智谱的输入法是模型展示——让开发者看到GLM-ASR有多能打。
成本在母公司别的业务线上回收了。你一个2人创业团队,用"免费"去打这种对手?
04 那中间商模式呢?
龚震说过一句话:“做AI应用,本质就是在卖token,跟深圳做跨境电商没区别。”
逻辑是这样的:个人用户直接买豆包ASR大概4-6块/小时,但如果你作为企业批量采购,可能拿到1.5-3块/小时。你包装一下卖3-4块/小时,用户省钱,你赚差价,体验还更好。
这个中间商逻辑对不对?在大厂下场之前是对的。
但豆包自己出了免费输入法之后呢?谁还会通过你付费去调一个本身就提供免费完整产品的API?
中间商能存在的前提是:上游只卖原材料,不做成品。 但在AI行业,你的上游供应商就是终端产品制造商。字节做了ASR,也做了输入法。智谱训了模型,也做了输入法。
这就像你开了一家奶茶店,然后茶叶供应商在你隔壁也开了一家,而且不要钱。
05 那做垂直场景呢?
好,大厂做通用产品,我做垂直场景。比如医疗语音输入——帮医生把口述的诊断变成标准病历。
你的价值在哪?在ASR之后的那一层:医疗术语热词库、上下文纠错、病历格式化模板、患者信息脱敏。
但医疗行业已经有卫宁健康、东华医为这些龙头SaaS了。 它们比你更懂医疗场景,有更多医院客户关系,有更多数据积累。要加一个"语音输入"功能,就是调一下ASR API加一套自己的术语库,两个工程师两周就做完了。
法律行业有iCourt,金融行业有恒生,每个高价值垂直场景都有龙头。你的"垂直场景知识壁垒",在行业SaaS面前不值一提。
06 那做个人记忆/个人AI呢?
闪电说创始人的长期愿景是"个人记忆/个人模型"——语音输入是入口,真正的产品是"懂你的AI"。
但这个方向也已经是红海了:
- Mem0(开源Memory层)
- Letta/MemGPT(长期记忆管理)
- Limitless(前Rewind,全天候记录)
- Apple Intelligence(设备端个人上下文)
核心技术——向量数据库、RAG、长期记忆管理——全部开源可得。从一个"没壁垒的工具"跳到另一个"没壁垒的方向",不是突围,只是换了个坑。
07 终极追问:操作系统都在内置了
macOS自带Dictation,Windows有Win+H语音输入,iOS/Android都有系统级语音识别。
目前体验还不够好,没有AI纠错、没有Agent模式。但这些能力Apple和微软每年都在加。
语音输入最终大概率会像手电筒App一样——被操作系统吸收,成为"功能"而不是"产品"。
08 推到底之后
现在把整条链拉出来看:
ASR模型层 → 大厂碾压,你训不起
后处理LLM层 → 大厂碾压,已经内置了
垂直场景知识层 → 行业SaaS碾压
个人记忆/个人AI → 开源红海,没壁垒
操作系统内置 → 终局是功能被系统吸收
每一层都有比你更强的玩家。语音输入作为独立产品品类,长期可能不成立。
09 那为什么Wispr Flow还能融几千万美元?
这是一个好问题,也是最重要的问题。
答案是:投资人赌的不是"语音输入是终局赛道"。
投资人赌的是这个团队能在窗口期——操作系统和大厂还没完全覆盖的这6-12个月里——拿到足够多的用户、积累足够多的场景认知,然后进化出下一个东西。
历史上太多这样的例子了:
- YouTube最初是约会网站的视频上传功能
- Instagram最初是签到App Burbn里的照片滤镜
- Slack是一个失败的游戏公司内部做的通讯工具
最终成功的产品,创始人在做第一个产品时根本不知道它存在。它是在过程中涌现出来的。
余猛在"声音"方向上已经迭代了4次。闪电说可能不是终局产品,但它是他找到终局产品路上的第四个台阶。
10 对所有AI创业者的意义
这件事不只关乎闪电说。把它抽象出来,是所有AI产品创业者面对的同一个问题:
当你的上游供应商可以零成本做你的产品时,你还剩什么?
不是技术——ASR是大厂的,LLM是大厂的,技术全是采购的。
不是场景——垂直行业有龙头SaaS,它们比你更懂用户。
不是"免费"——大厂的免费是交叉补贴,你的免费是烧命。
你真正拥有的,只有一样东西:在一个暂时有缝隙的市场里活下来,并在下一个缝隙出现时第一个钻进去的速度和判断力。
这不是一个让人兴奋的结论。
但我觉得这是在AI时代做产品最诚实的认知。
不要执着于"找到一个大厂不做的切入点"——因为这个点可能不存在,或者今天存在、明天就被大厂填上。
要做的是:让自己成为那个比所有人更快找到下一个点的人。
活着,保持嗅觉,快速迭代。
这可能是创业者唯一确定的策略。
本文基于闪电说v0.5.7(2026-01-23)、豆包输入法(2025-11上线)、智谱AI输入法/AutoGLM(2025-12发布)、TypeLess、Wispr Flow五款产品的公开信息分析。创始人数据来源:腾讯新闻《做AI应用像卖奶茶:闪电说团队的探索实录》(2026-01-17)。技术参数来源:字节Seed-ASR官方技术博客、智谱GLM-ASR官方文档、阿里SenseVoice开源社区。定价数据来源:typeless.com、wisprflow.ai、火山引擎官方文档。