从一款语音输入法开始,一层层追问,直到触及AI创业最残酷的真相。

前几天深度研究了一款叫"闪电说"的AI语音输入法。

不是为了评测产品好不好用,而是想搞清楚一个问题:在AI时代,一个中小团队做toC产品,到底还有没有活路?

研究完之后,我觉得这个问题值得写出来。因为它不止关乎闪电说这一款产品,而是关乎所有正在做、或者想做AI产品的人。

01 故事的开始

闪电说是一款语音输入法。你按一个快捷键开始说话,它把你的语音转成文字,写入当前的输入框。

创始团队两个人——余猛和龚震。余猛23岁就做过百万级用户产品,龚震在Monica做过从0到1000万美金ARR的增长。两个人从2024年初开始,只做跟"声音"相关的事情,前后迭代了4个方向,最后落在了语音输入法。

最初的定位非常清晰:

  • 用阿里的SenseVoice Small,一个2.7亿参数的小模型
  • 完全在本地运行,0.2秒延迟
  • 不联网,不上传数据,完全隐私
  • 免费

听起来完美。但有一个致命问题:本地小模型的中文识别准确率大概90-95%。

90%什么概念?每说100个字,有5-10个字是错的。加上口语里的语气词、重复词、环境噪音,实际体验更差。你说完一段话,还得自己回头一个字一个字改。

有时候还不如直接打字。

02 第一个矛盾:隐私 vs 准确率

准确率不够怎么办?接云端ASR。

于是闪电说在后续版本里接入了豆包、智谱、OpenRouter等云端语音识别API。但让用户自己去各个平台申请API Key,自己配置。

品牌叙事立刻崩了一半——你主打"数据从不离开你的电脑",但现在语音要发到豆包的服务器上?

更大的问题是:用户根本配不明白。

龚震自己在一次公开访谈里说了这些数据:

  • 50%的用户开了AI纠错功能
  • 但真正配好API Key的,只有不到20%
  • 中间30%的人——想用,配不明白

这30%不是不想付钱的人,是想付钱但你没给他付钱的地方的人。

03 第二个矛盾:你免费,但大厂更免费

2025年11月,字节的豆包输入法上线了。

  • Seed-ASR,准确率98%+
  • 开箱即用15种方言
  • 150MB离线模型,弱网环境也能用
  • 完全免费,无广告

2025年12月,智谱的AI输入法(AutoGLM)发布了。

  • GLM-ASR,字符错误率仅7%
  • 耳语模式——你小声说也能识别
  • 内置翻译、改写、Vibe Coding
  • 永久免费,模型还开源了

闪电说原来的每一个卖点,被大厂逐条碾压:

你的卖点大厂怎么做的本地离线豆包也有150MB离线模型隐私大厂也说核心输入本地处理免费大厂永久免费,还零配置方言豆包15种方言,准确率98.2%

大厂为什么能免费?

因为它们不靠输入法赚钱。字节的输入法是数据入口——你每天说的话都在喂模型。智谱的输入法是模型展示——让开发者看到GLM-ASR有多能打。

成本在母公司别的业务线上回收了。你一个2人创业团队,用"免费"去打这种对手?

04 那中间商模式呢?

龚震说过一句话:“做AI应用,本质就是在卖token,跟深圳做跨境电商没区别。”

逻辑是这样的:个人用户直接买豆包ASR大概4-6块/小时,但如果你作为企业批量采购,可能拿到1.5-3块/小时。你包装一下卖3-4块/小时,用户省钱,你赚差价,体验还更好。

这个中间商逻辑对不对?在大厂下场之前是对的。

但豆包自己出了免费输入法之后呢?谁还会通过你付费去调一个本身就提供免费完整产品的API?

中间商能存在的前提是:上游只卖原材料,不做成品。 但在AI行业,你的上游供应商就是终端产品制造商。字节做了ASR,也做了输入法。智谱训了模型,也做了输入法。

这就像你开了一家奶茶店,然后茶叶供应商在你隔壁也开了一家,而且不要钱。

05 那做垂直场景呢?

好,大厂做通用产品,我做垂直场景。比如医疗语音输入——帮医生把口述的诊断变成标准病历。

你的价值在哪?在ASR之后的那一层:医疗术语热词库、上下文纠错、病历格式化模板、患者信息脱敏。

但医疗行业已经有卫宁健康、东华医为这些龙头SaaS了。 它们比你更懂医疗场景,有更多医院客户关系,有更多数据积累。要加一个"语音输入"功能,就是调一下ASR API加一套自己的术语库,两个工程师两周就做完了。

法律行业有iCourt,金融行业有恒生,每个高价值垂直场景都有龙头。你的"垂直场景知识壁垒",在行业SaaS面前不值一提。

06 那做个人记忆/个人AI呢?

闪电说创始人的长期愿景是"个人记忆/个人模型"——语音输入是入口,真正的产品是"懂你的AI"。

但这个方向也已经是红海了:

  • Mem0(开源Memory层)
  • Letta/MemGPT(长期记忆管理)
  • Limitless(前Rewind,全天候记录)
  • Apple Intelligence(设备端个人上下文)

核心技术——向量数据库、RAG、长期记忆管理——全部开源可得。从一个"没壁垒的工具"跳到另一个"没壁垒的方向",不是突围,只是换了个坑。

07 终极追问:操作系统都在内置了

macOS自带Dictation,Windows有Win+H语音输入,iOS/Android都有系统级语音识别。

目前体验还不够好,没有AI纠错、没有Agent模式。但这些能力Apple和微软每年都在加。

语音输入最终大概率会像手电筒App一样——被操作系统吸收,成为"功能"而不是"产品"。

08 推到底之后

现在把整条链拉出来看:

ASR模型层        → 大厂碾压,你训不起
后处理LLM层      → 大厂碾压,已经内置了
垂直场景知识层    → 行业SaaS碾压
个人记忆/个人AI   → 开源红海,没壁垒
操作系统内置      → 终局是功能被系统吸收

每一层都有比你更强的玩家。语音输入作为独立产品品类,长期可能不成立。

09 那为什么Wispr Flow还能融几千万美元?

这是一个好问题,也是最重要的问题。

答案是:投资人赌的不是"语音输入是终局赛道"。

投资人赌的是这个团队能在窗口期——操作系统和大厂还没完全覆盖的这6-12个月里——拿到足够多的用户、积累足够多的场景认知,然后进化出下一个东西

历史上太多这样的例子了:

  • YouTube最初是约会网站的视频上传功能
  • Instagram最初是签到App Burbn里的照片滤镜
  • Slack是一个失败的游戏公司内部做的通讯工具

最终成功的产品,创始人在做第一个产品时根本不知道它存在。它是在过程中涌现出来的。

余猛在"声音"方向上已经迭代了4次。闪电说可能不是终局产品,但它是他找到终局产品路上的第四个台阶。

10 对所有AI创业者的意义

这件事不只关乎闪电说。把它抽象出来,是所有AI产品创业者面对的同一个问题:

当你的上游供应商可以零成本做你的产品时,你还剩什么?

不是技术——ASR是大厂的,LLM是大厂的,技术全是采购的。

不是场景——垂直行业有龙头SaaS,它们比你更懂用户。

不是"免费"——大厂的免费是交叉补贴,你的免费是烧命。

你真正拥有的,只有一样东西:在一个暂时有缝隙的市场里活下来,并在下一个缝隙出现时第一个钻进去的速度和判断力。

这不是一个让人兴奋的结论。

但我觉得这是在AI时代做产品最诚实的认知。

不要执着于"找到一个大厂不做的切入点"——因为这个点可能不存在,或者今天存在、明天就被大厂填上。

要做的是:让自己成为那个比所有人更快找到下一个点的人。

活着,保持嗅觉,快速迭代。

这可能是创业者唯一确定的策略。

本文基于闪电说v0.5.7(2026-01-23)、豆包输入法(2025-11上线)、智谱AI输入法/AutoGLM(2025-12发布)、TypeLess、Wispr Flow五款产品的公开信息分析。创始人数据来源:腾讯新闻《做AI应用像卖奶茶:闪电说团队的探索实录》(2026-01-17)。技术参数来源:字节Seed-ASR官方技术博客、智谱GLM-ASR官方文档、阿里SenseVoice开源社区。定价数据来源:typeless.com、wisprflow.ai、火山引擎官方文档。