萬字解析 | AI 必爭之地:聽寫賽道已從春秋邁入戰國

作者:01fish
日期:2026年5月11日 下午11:35
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

AI聽寫賽道大拆解:系統攞走基礎,產品要麼做個人代理,要麼扎進行業深處

整理版摘要

呢篇文章出自行業媒體,作者團隊長期追蹤AI應用賽道,想解析AI聽寫領域嘅競爭格局同未來走向。佢哋發現,聽寫唔再淨係「錄音轉文字」,而係變成理解用戶意圖、輸出可用結果嘅新範式。成個賽道分成四層:系統基建、表達增強、會議記憶同垂直工作流。

系統廠商(GoogleApple等)會逐步標準化基礎能力,例如自動標點、去口頭語、簡單改寫,呢啲好快會變成OS預設功能。獨立產品如果想生存,就唔可以留喺中間地帶,一定要揀一條路:要麼向上做「個人表達代理」,用得越耐越懂你;要麼向下扎入垂直行業工作流,深度綁定業務系統。

作者嘅結論係:基礎能力歸系統,深度綁定歸場景,個人表達歸記憶。獨立產品嘅空間狹窄但明確,選擇大於努力。

  • 聽寫賽道已從「聲音→文字」進化到「聲音→意圖→可用結果」,核心係補齊人類口語缺失嘅結構同語氣。
  • 系統基建層(GboardApple Dictation)有默認入口優勢,但唔敢替用戶做決定,所以留低空間畀其他層。
  • 表達增強層(TypelessWispr Flow)要喺特定場景比系統好10倍先值得安裝,靠個人數據沉澱建護城河。
  • 會議記憶層(OtterPlaud)必須進入垂直工作流,幫用戶做「開會後嘅dirty work」,否則會被Zoom等平台吞併。
  • 垂直工作流層(醫療、法律)壁壘最深,靠行業數據、合規認證同系統集成形成遷移成本,大廠難以複製。
整理重點

四層位面戰爭:誰食入口,誰搶表達

作者將聽寫賽道拆成四個位面,每個位面嘅生存邏輯唔同。第一層係系統基建層,代表有GboardApple DictationSamsung Galaxy AI,核心優勢係默認入口同系統權限。但佢哋唔敢替用戶做改寫決定,因為一旦改錯,影響成個手機市場。

用戶唔需要裝任何嘢,打開鍵盤就用得,呢個分發優勢係第三方產品點都追唔到嘅。

第二層係表達增強層,代表有TypelessWispr FlowSuperwhisper。佢哋嘅賣係:喺用戶自然口語之後,自動修正語法、口癖、錯別字,再用更貼切嘅表達重組句子。呢種產品唔係用嚟日常吹水,而係喺正式場景(寫郵件、寫文檔、覆客)下幫你節省修改時間。

第三層係會議/記憶層,代表有OtterFirefliesPlaud。本質係幫你做會後嘅dirty work:整理摘要、提取行動項、同步CRM。但呢層面臨結構性壓力:Zoom、Teams、Google Meet已經內置AI會議總結,通用摘要嘅差異化好快被抹平。

如果仲係死做通用會議摘要,你嘅對手唔係同行,而係Zoom產品經理下個季度嘅OKR

第四層係垂直工作流層,代表有Nuance Dragon Medical(醫療)、Gong(銷售)。呢層唔sexy但壁壘最深,靠專業詞庫、合規認證、行業數據同系統集成累積護城河。大廠嘅通用能力好難複製,因為每一層都需要時間同行業關係去堆。

醫生要嘅唔係錄音稿,而係口述三分鐘直接出一份歸檔病歷;律師要嘅係可追溯、可引用嘅庭審記錄,唔係「大概意思對咗」。

整理重點

中文市場:跳過聽寫,直接進入「語音→結構化內容」

作者指出,中文用戶對住手機講嘢冇心理門檻,因為微信語音訊息已經訓練咗十年。訊飛輸入法每日語音調用超10億次,所以唔需要教育用戶「語音比打字快」。問題係講完之後點算。

對短消息同搜索,系統輸入法已經做到90分,創業公司冇生存空間。但對長段落、需要成文嘅場景,系統輸入法完全唔夠。

中文口語嘅問題係結構級:大量「然後」、「就係」、「嗰個」,邏輯跳躍、句子唔完整。靠潤色搞唔掂,要結構化重組先變成可用產出。作者認為,中文市場嘅解法係跳過「語音轉文字」,直接做「語音轉結構化產出」。釘釘語音生成日報、通義聽悟拆會議紀要、訊飛醫療「訊錄」直接出電子病歷,呢啲已經驗證咗付費意願。

  • 銷售:拜訪完客戶,對手機講兩分鐘,CRM自動更新客戶狀態、預算、下一步。
  • 員工:收工前講三分鐘,日報週報自動生成,格式對齊公司模板。
  • 醫生:邊睇診邊口述,病歷草稿實時成型,改兩筆就簽字。
  • 創作者:講十分鐘思路,自動拆成小紅書文案、播客大綱、視頻腳本。

作者提醒,會議紀要已經係紅海,飛書、通義、釘釘、訊飛四個巨頭喺度打。藍海喺更碎片化嘅垂直場景,但中國用戶為「省時間」付費嘅閾值比歐美高,你要令佢覺得「冇呢個工具今晚要多花一小時」先撐得起現金流。

整理重點

終局判斷同建議:收斂係聽日嘅事,但揀位置係今日嘅事

作者預測,24-36個月內,系統級AI改寫能力會變成OS標配。基礎轉寫、自動標點、簡單改寫呢啲會完全被系統吞併。獨立產品如果只係「比系統好一點但冇深度綁定」,就會最先被淘汰。

定價$5-10/月嘅基礎AI聽寫工具會失去增長空間,獲客成本急劇上升。

能夠做大嘅位置只有兩個:一個係個人表達代理——用戶用得越多,AI越懂你。Wispr Flow做到80%嘅6個月留存,用戶72%日常打字用語音,已經形成習慣替代。另一個係行業產出系統——一旦接入CRMHIS、ERP,遷移成本極高。Otter轉型做Sales Agent同SDR Agent後,ARR突破$100M,就係最好例子。

  1. 1 創業者:唔好做「又一個更好嘅聽寫App」。向上做個人表達代理,向下做行業語音自動化,核心指標係用戶第90日有冇50%以上輸入經你產品完成。
  2. 2 投資人:睇三個數——6個月留存(Wispr Flow 80%係標杆)、單用戶月輸入字數增長曲線、個人化數據深度。講唔出「用戶數據越多產品越好用」呢個故事嘅,會被系統級能力食咗。
  3. 3 產品經理:最值得遷移嘅能力係「將模餬口語變成可信輸出」嘅設計,包括上下文識別、改寫強度控制、糾錯成本設計、信任建立。呢啲問題所有AI Agent產品都要解決。

選擇大於努力,基礎能力歸系統,深度綁定歸場景,個人表達歸記憶。

圖片


以前,我哋成日聽嘅「聽寫產品」代表其實唔多,數得出嘅可能得訊飛、Otter、Notta 呢幾個。而家新一代 Plaud、WisprFlow、Typeless 陸陸續續出咗嚟,成個AI 聽寫賽道嘅玩家都多咗,競爭都激烈咗:一個百花齊放、百家爭鳴嘅時代正式開始。「聽寫」就好似諸子百家起於春秋(思想萌芽,學派唔多),鼎盛於戰國(百家爭鳴)。


由以前嘅「錄音轉文字」到而家嘅「AI即聽即譯」,聽寫賽道正由簡單嘅轉寫,變做理解用戶講緊乜,並嘗試用更好嘅陳述方法還原文字、由幫用戶做轉錄逐漸取代鍵盤輸入。


傳統聽寫嘅範式:聲音 → 文字。ASR 準確率係核心指標。

有AI 加持後嘅新範式:聲音 → 意圖 → 可用結果,

結果可以係一段潤色過嘅文本、一個結構化任務、一封寫好嘅電郵,甚至一個自動執行嘅動作。


人嘅口語天生唔適合直接變成書面語。重複、猶豫、口頭禪、邏輯跳躍、句子唔完整:呢啲問題用任何 ASR 模型都解決唔到。因為佢哋唔係識別問題,而係表達問題。

所以AI 聽寫產品真正要做嘅,係補返人類口語缺失嗰部分:結構、語氣、上文下理、意圖、格式。


跟住,就等我哋直接入正題:


圖片
全文約1萬字,深度閲讀需要 40分鐘 
 關於AI聽寫賽道,我哋做咗盡可能完整嘅解析。內容紮實,建議先轉發,再慢慢睇


聽寫賽道嘅四維戰爭


Gboard 如果聽日上線一個「自動潤色聽寫文本」嘅掣,幾多 AI 聽寫創業公司嘅估值會俾人削減一半?呢個唔係假設,而係成個賽道正在面對嘅現實。


Google、Apple、Samsung、Microsoft所有控制系統入口嘅玩家,都已經有將「聽寫 + 清理 + 改寫」變成預設功能嘅技術儲備;

Whisper 呢類開源模型周圍都係,大模型可以反向糾正轉寫錯誤,邊際推理能力正在快速提升:NPU 算力已經由兩年前嘅單位數 TOPS 升到而家嘅 40-70+ TOPS。


未來競爭明顯好激烈,但並唔代表中小公司完全冇位企。

認清自己產品嘅定位喺呢個賽道好重要,你知道同邊個競爭,你先知點樣設計自己嘅大方針大方向,並喺對應嘅大方針下優化好自己嘅產品。


實際上,「聽寫」呢個賽道,俾四股力量瓜分:

系統輸入法、AI 寫作代理、會議記憶工具、垂直工作流。

每一層嘅生存邏輯其實有啲唔同。



四維戰爭:邊個食入口,邊個搶表達



第一維:系統基建層


呢一層嘅本質唔係App,而係作業系統嘅輸入基建。

代表: Gboard、Apple Dictation、Samsung Galaxy AI、Microsoft Voice Access、Nothing 手機嘅 Essential Voice

核心優勢:預設入口 + 系統權限 + 十億級分發。


用戶唔需要安裝任何嘢,打開鍵盤就用得。系統仲可以接觸通訊錄、行事曆、檔案、剪貼板。但呢一層有個結構性弱點:唔敢幫用戶做決定,即係錄音轉寫時嘅語譯策略一定要保守。

佢可以幫你加標點、刪走「嗯」「嗰個」,但唔會將你隨口講嘅一段話改寫成一封正式電郵。因為一旦改錯,損失嘅就係成個手機市場。


Nothing 呢部手機可能對大部分人嚟講好陌生,我哋都係最近先留意到。

主要因為佢將語音輸入變做手機主推嘅輸入方式,更加接近「Voice as System Entry」:

撳一下,講一句,系統幫你處理(電郵,聊天)。

呢種大膽嘗試,都驗證咗語音輸入喺AI時代下會逐步取代手打鍵盤嘅方式,即係AI聽寫功能會越來越重要。


說句題外話,其實我哋寫呢篇內容之前已經察覺自己嘅輸入方式俾AI大模型軟件改變咗。基本上,無論同邊個國內外大模型對話,首要就會揀語音輸入。


商業化判斷: 手機廠商唔會將系統級能力交俾第三方,尤其係AI聽寫咁重要嘅輸入口。

如果你堅持要做一款「語音輸入法」APP(類似鍵盤輸入法應用),本質上你係喺呢個維度參與競爭,但呢個維度真正有話語權嘅參與者都係OS,你將來就係同OS直接打仗,所以贏面太細。


第二維:表達增強層


呢一層嘅本質,其實係喺特定場景下,

根據原意做表達增強,從而減少二次修正時間,提升效率。

代表: Typeless、Wispr Flow、Superwhisper、Aqua、Willow、AudioPen


呢一層嘅賣點係:

「喺用戶自然語言表達之後,透過糾正語法、口癖、錯別字以及嘗試用更貼切嘅表達方式重組語句」令一段表達上比較混亂嘅內容變成有條理、邏輯清晰嘅段落。好似語文老師幫你改作文咁。


Typeless 會將佢「幫你慳咗幾多修改時間」嘅貢獻放喺產品首頁,時刻提醒你佢有幾高效:

圖片

大概體驗上,我舉個例:

你對住咪高峯講:

「我頭先想講嘅係呃我哋聽日可能要把呢份文檔發俾客戶然後你睇下有冇問題。」

普通聽寫直接輸出原句,而表達增強層嘅應用會輸出:

「我哋聽日需要將呢份文檔發俾客戶,你能唔可以先幫我檢查一下?」

差距唔喺識別率,而係後面嗰步改寫之後嘅資訊傳遞效率。


不過Typeless 都切咗鍵盤輸入嘅入口,用戶可以透過叫起佢嘅鍵盤輸入口去做語音內容嘅轉寫。但佢又繞過咗同OS系統喺輸入法層面嘅直接競爭(就算競爭都競爭唔過)。點樣理解呢句話?


首先,OS 基建位面嘅競爭主要集中在「泛」聊天嘅文字輸入場景或者可以話係高頻嘅對話場景,呢啲場景並唔需要好官方冇瑕疵嘅表達,只要去掉一啲基本嘅口癖同水份,用正確嘅語法轉寫就得。甚至喺日常對話場景,我哋更希望還原講嘢嘅人嘅風格。


所以喺呢種日常交流嘅泛場景下,Typeless 呢種好正式但又比較複雜嘅轉寫並冇明顯優勢,而且做鍵盤輸入法嘅時候,Typeless 冇辦法做到錄音時同步出文字,佢嘅交互係要等用戶一口氣講完先做全篇轉寫,咁樣冇辦法即時校對文字嘅體驗好差(如果用戶冇辦法第一時間知道聽寫轉寫係咪正確,好多時講完一段都會唔記得之前講過乜,用戶點樣校驗Typeless 係咪將佢嘅本意轉寫完整呢?),而且一定會拖慢日常對話節奏。


以我自己嘅輸入習慣為例,我只有寫大段文章內容嘅時候,先會叫起 Typeless。但我自己日常喺微信裏面,直接會用微信自帶嘅語音轉文字輸入法,因為我覺得咁樣可以保留我嘅語氣。Typeless 成日會將我好多語氣詞(嗯、額、耶等)都刪走,即係保留心情嗰啲語氣詞冇曬。

所以話,呢類APP喺泛場景係冇優勢㗎。


但喺特定輸入場景,會自動分析上下文語境、注重表達層嘅APP嘅優勢就嚟喇。例如你講一句:「今日唔搞住,聽日再睇下。」

喺唔同場景,就應該變成唔同風格:

  • Slack:Hey, let’s pause for today and revisit tomorrow。

  • Gmail:Hi John, I think we should hold off for today and continue the discussion tomorrow。

  • X:skipping today。 revisit tmw。

  • Notion:Deferred to tomorrow for further review。


Typeless 特別之處在於佢更強調:App-aware/social-aware/vibe-aware,而唔係單純嘅「高準確率」。

所以佢會嘗試理解:呢個係dating app?係工作軟件?係客服後台?係寫X?係寫PRD?然後自動切換人格。

而且喺一啲更特別嘅對話場景,例如同律師溝通、同老細匯報工作,注重表達層級嘅官話式改寫就變得有優勢。


注重表達層嘅競爭都好激烈,產品好多。

但佢哋嘅護城河唔係靠技術代差,而係靠分發,多分發多拎數據。

拎到數據就可以沉澱出用戶嘅個人表達模型:寫作風格、專業詞庫、歷史習慣,咁用戶就離唔開你。

呢一點上,Typeless 都係咁做。

圖片

你可以睇到佢嘅首屏,用好多位來展示用戶個人表達模型嘅完善程度。

仲會幫我收錄,記錄我嘅用戶詞典。


圖片

呢度聲明,雖然筆者呢邊非常濃墨重彩咁講咗好多 Typeless 嘅案例,但截稿前都冇收 Typeless 嘅廣告費,我哋係一間中立嘅行業媒體(嚴肅)。

睇到呢度嘅各位開發者,如果你有信心你嘅產品可以令我哋團隊產生aha moment,或者話可以順滑嵌入我哋媒體團隊嘅日常工作流程,請聯絡我(kleo945,備註開發者),我會唔收一分錢咁幫你用心推廣產品。


然後講下Wispr Flow,佢同Typeless 係點樣嘅競爭關係?

我哋可以咁樣類比:佢哋唔係Spotify vs Apple Music(同量級對手),更似Notion vs Obsidian

  • Wispr Flow = Notion:大融資、企業市場、平台化野心、閉源、高估值、由個人工具向企業協作OS演進。

  • Typeless = Obsidian:小團隊或bootstrapped、消費者驅動、免費層慷慨、社區口碑好、喺特定用戶羣(如writer、doctor、個人使用者)中贏在「性價比+準確率」。


佢哋短期內唔會正面交鋒,因為:

  • Wispr Flow 嘅增長引擎係企業(125新企業客戶/週),Typeless 冇企業銷售能力(無SOC2=入唔到採購流程)。

  • Typeless 嘅增長引擎係個人用戶嘅Product Hunt口碑+慷慨free tier轉化,同Wispr Flow 搶嘅係唔同預算線嘅錢。


商業化判斷:

呢類產品如果將自己定位成「更好嘅輸入法」,用戶唔會俾錢。

但如果定位成「效率工具」:幫你慳返每日反覆潤色電郵、訊息、文檔嘅時間:就可以收費。

ASR 準確率係基本操作,順滑嵌入每日工作流程先係結果。


另外,呢一層嘅生存條件好苛刻:

你喺特定場景必須比 OS 預設體驗嘅聽寫好 10 倍,用戶先會多裝一個 App。

雖然話術業有專攻,OS廠商冇必要切垂直場景,技能點都有限,唔可以亂咁點。

但如果有一日 Gboard 硬係加咗個「潤色文本」掣,開發者嘅日子一定更難捱。


所以真正能夠生存落嚟嘅,係最懂分發嘅,能夠快速累積個人數據沉澱同圍繞用戶垂直領域嘅日常工作流程:令用戶用得越耐越爽,越離唔開。

就像掃描全能王,即使蘋果自己出咗掃描功能,都阻擋唔到掃描全能王嘅增長趨勢。


第三維:會議/記憶層


呢一層嘅本質唔係轉寫工具,而係「幫你做日常會後dirty work嘅TA」。

代表:Otter、Fireflies、Granola、Fathom、Plaud、Limitless(2025年12月已經俾 Meta 收購)


你唔想花時間整理會議記錄、梳理每個人講咗咩、跟住邊個要做咩:佢幫你做。

長音頻轉寫、說話人區分、自動摘要、行動項提取、同步到 CRM 和 Notion,一條龍服務,明明白白。

B2B 有明確嘅付費意願,結果可以量化,乍睇係個好性感嘅商業模式。


但呢一層有一個結構性壓力:

會議軟件巨頭只需要喺現有產品上加一個功能,就可以逼你上正面戰場白刃戰。

Zoom AI Companion、Microsoft Teams Copilot、Google Meet Gemini,全部做緊AI 會議總結。

通用摘要嘅差異化正快速被抹平。呢個同我哋喺第二維講過嘅邏輯一模一樣:Gboard 上線一個「潤色」掣,表達增強層就要重新證明自己存在嘅理由。平台做功能優化嘅成本,遠低過創業公司建立一個獨立品類嘅成本。


講笑咁講,如果你仲係死做通用會議摘要,你嘅對手唔係同賽道創業公司簽KA 嘅速度有幾快,而係 Zoom 嘅產品經理想完成下個季度 OKR 嘅決心有幾大。


那麼,呢個維度能夠生存落嚟嘅產品,只有一條路:

進入垂直工作流,將「會議摘要」變成「同業務相關嘅產出」。


舉個例:

  • 幫銷售團隊喺會議結束 30 秒內自動更新 CRM 裏面嘅客戶狀態、預算、下一步跟進動作

  • 幫招聘團隊自動生成候選人評估卡,直接同步入人才庫

  • 幫用戶研究團隊從 20 場訪談裏面自動提煉洞察,按主題分類

  • 幫PMO 團隊喺會議結束 30 秒內自動輸出項目時間線表格:邊個階段做咩事,邊個團隊負責配合。


單純嘅「會議記錄」喺2026年已經唔係新鮮事,將「嗰個崗位最唔想做但又要做嘅dirty work 做咗」。呢個先係付費點。


題外話:硬件形態喺呢個維度值得單獨講一句。

Plaud 做實體錄音筆 + AI 總結,Limitless 在被 Meta 收購前做嘅係可穿戴記憶設備 Pendant 

佢哋做啱咗一件事:將場景由線上會議擴展到線下對話,甚至全天候個人記憶。呢個意味住 capture 嘅邊界喺擴闊。


好多人會忽略一點:用一個 APP 錄音,你要先諗起打開佢,呢個係一個好有意識、好刻意嘅動作。但如果係一個硬件:掛喺胸前、貼喺手機背面:你見到佢,就會諗起要用。硬件嘅實體存在本身就係喚起機制。


由我哋自己嘅體感嚟講,AI 喺生活中嘅應用,最終一定會走向硬件同實體。

原因好簡單:

  • 硬件睇得見、摸得着,帶喺身就會隨時諗起用。

  • 一個硬件俾咗一個可以影相嘅實體,更加適合influencer 用嚟創作傳播。

  • 軟件收埋喺手機幾十個 APP 中間,你唔刻意記住佢,就會唔記得用。好多時決定用戶留存的唔係功能好唔好,而係佢記唔記得去用。


但 capture 從來唔係終點。

呢條路線真正嘅分水嶺係 resurfacing:喺你需要嘅時候重新出現。

  • 你三星期前同客戶傾過嘅一個定價細節,喺你寫方案嘅時候自動彈出提示;

  • 你上個月見候選人時提到嘅一個顧慮,喺你做offer 決定時彈出;

  • 一個喺會議紀錄列得平淡無奇嘅 to do,到咗對應時間點會提醒你:呢件事你似乎未做。


商業化判斷 誰能把 用戶甚至唔需要記得自己曾經記錄過呢件事 做好咗,就贏咗。


第四維:垂直工作流層


呢一層嘅本質係深度理解行業knowledge嘅產出系統。

代表:Nuance Dragon Medical(醫療;Microsoft 以 $19.7B 收購 Nuance)、Gong/Chorus(銷售)、各類法律轉寫工具


好唔sexy ,但壁壘最深嘅維度。需要大量前期累積,適合垂直行業 insider 老手嘅創業方向。


護城河唔來自某一項技術,而來自五層疊加:專業詞庫、合規認證、行業數據、同現有系統嘅綁定、用戶轉移成本。


呢啲都唔係技術壁壘,係資源壁壘。


大廠用通用能力複製唔到,因為每一層都需要時間同行業關係去儲,講到底都係數據,LLM 廠商未必攞到呢啲細分垂直嘅數據。


呢個同我哋喺第三維講嘅邏輯形成對比:會議層嘅創業公司怕嘅係 Zoom 產品經理下個季度嘅 OKR,而垂直工作流層怕嘅從來唔係大廠:係競品入行時間夠唔夠耐、行業知識夠唔夠深、渠道累積夠唔夠多。


具體嚟講,每個垂直場景要嘅嘢完全唔同:

  • 醫生要嘅係結構化病歷,口述三分鐘,出嚟嘅係一份可以直接歸檔嘅病歷文件,而唔係一篇要護士再花十五分鐘整理嘅錄音稿。

  • 銷售唔係要會議錄音:要嘅係客戶預算、競品資訊、決策鏈、下一步跟進動作,會議結束後 CRM 自動更新。呢件事我哋喺第三維講過:會議摘要層嘅產品如果想生存落嚟,就要向呢個方向行。而垂直工作流層嘅產品,由第一日就要將客戶嘅「next to do」融入產品。

  • 律師要嘅係庭審記錄、證據摘要、案情梳理:而且每一段文本必須可以追溯、引用、質證。「大概意思啱」喺法庭上等於冇啱。


商業化判斷:

四個維度裏面,呢一層係最唔需要懷疑「係咪真需求」嘅。付費意願明確:效率提升可量化,替代方案轉移成本極高,ROI 可以精確到分鐘同人效。

真正嘅難點唔喺需求端,而喺供給端:行業知識、合規資質、系統整合、KA 客戶渠道、數據源頭。每一樣都係用時間換返嚟嘅門檻。


我哋內部判斷一個商業模式行唔行得通,通常由呢四個維度拆解:產品、渠道、轉化、營運。

呢一層嘅特點係:每一個維度單點拉長形成長板,單點突破,對於一個想切入呢個市場嘅優秀創業團隊嚟講都唔難,但係四個維度都做好,後來者要追就好難。

通用聽寫鬥嘅係「效率」,垂直工作流鬥嘅係行業經驗同資源沉澱。


中文市場:跳過聽寫,直接進入「語音→結構化內容」


中國人對住手機講嘢冇心理障礙,因為微信語音訊息已經訓練咗十年嘅肌肉記憶,訊飛輸入法日語音調用超 10 億次,語音輸入喺中文市場根本唔存在「教育用戶」呢個環節。


對比嚟睇,Wispr Flow 嘅 CEO 2025 年融資時仲強調要說服用戶「voice is faster than typing」,強調嘅核心痛點係英文用戶長期唔用語音因為系統聽寫「too dumb」:中國用戶早就用腳投票。


既然講嘢嘅習慣唔使培養,問題就變成:講完之後點算?

對短訊息同搜尋嚟講,系統輸入法已經將「講嘢轉文字」做到 90 分。

訊飛、搜狗、豆包、微信語音鍵盤覆蓋咗日常打字嘅絕大多數場景,呢一層基本上冇創業公司嘅生存空間。但係對長段落、需要「成文」嘅場景,系統輸入法完全唔夠。


中文口語嘅問題唔喺詞彙層,我哋冇英文咁多 um/uh/like 要清理。

問題喺結構層:我哋講出嚟嘅嘢係碎片化嘅,「然後」、「即係」、「嗰個」堆到一地,邏輯跳躍,句子唔完整。


呢種碎片靠「潤色」修唔好,要靠結構化重組先可以變成可用產出。

英文賽道嘅解法係「令口語似書面語」:去 filler、修語法、調語氣。

中文賽道嘅解法要再行前一步:將口語碎片直接變成系統裏面應該有嘅嘢。


呢件事已經有人做緊:

  • 釘釘 2025 年上線語音生成日報

  • 通義聽悟將長音頻自動拆成結構化會議記錄(議題+決策+待辦)

  • 訊飛醫療嘅「訊錄」將醫生口述直接變成電子病歷

  • 銷售易 NeoAgent 令銷售透過語音自動更新 CRM 記錄

呢啲產品驗證咗同一件事:「語音→結構化產出」喺中文市場有真實付費意願,「語音→純文字」就冇。


舉幾個更具體嘅場景:

  • 銷售拜訪完客戶,喺𨋢入面對住手機講兩分鐘,CRM 裏面嘅客戶狀態、預算、下一步跟進 30 秒內自動寫好

  • 員工收工前對住手機講三分鐘,日報週報自動生成,格式對齊公司模板

  • 醫生一邊睇症一邊口述,病歷草稿即時成型,返轉頭改兩筆就可以簽名

  • 創作者講十分鐘思路,自動拆成小紅書文案、Podcast大綱、影片腳本三個版本


呢啲工作嘅交付物主要係文字,而AI 最擅長文字。而且仲說明咗一個共性,用戶唔抗拒表達,但如果可以節省講完之後要坐低花 20 分鐘打成系統需要嘅格式。


將呢 20 分鐘壓到 30 秒:呢個先係俾錢嘅理由。


咁問題嚟喇:切邊個場景?

會議記錄呢條路已經係紅海。


飛書、通義、釘釘、訊飛巨頭喺度打,同歐美 Zoom/Teams/Google Meet 擠壓 Otter 嘅邏輯一樣:通用摘要嘅差異化正快速被抹平,創業公司好難喺呢個位生存。


藍海喺更加碎片化嘅垂直場景:

銷售嘅 CRM 填寫、醫生嘅病歷、內容創作者嘅多平台適配、教育場景嘅筆記整理。但呢啲場景嘅付費難度完全唔同。


中國用戶為「慳時間」付費嘅門檻比歐美高好多,你要令用戶覺得「如果冇呢個工具我今晚要俾多一粒鐘」,先撐得起一個獨立產品嘅現金流。


值得注意嘅係路徑選擇嘅差異:

Wispr Flow 2026 年推出 Command Mode,開始向結構化方向行,CEO 明確要做「voice-led operating system」。海外嘅路徑係先用通用聽寫獲客,再疊加結構化服務:因為英文用戶首先要被說服「語音比打字快」,呢一步本身就係產品價值。


中國嘅路徑要反過嚟:先由一個高痛感嘅結構化場景切入,用確定性嘅輸出證明價值,再橫向覆蓋。因為中國用戶已經習慣語音輸入,只靠「轉寫」收唔到錢。


終局可能殊途同歸,但起手勢決定咗你第一批用戶係邊個、付費意願有幾強、留存靠咩撐住。


張三豐教張無忌太極劍,問佢記住咗幾多。張無忌話全部唔記得,張三豐話可以上場。


呢個故事俾人引用到爛,但擺喺呢個賽道入面有一層可以斟酌嘅含義:

張無忌之所以可以忘記招式,係因為佢已經將每一招練過、拆過、理解過。

忘記嘅係形,留低嘅係對力量結構嘅直覺。


做中國市場嘅特定行業語音工作流產品都一樣:你要先將呢啲行業裏面嘅 dirty work 逐個啃過,理解每個場景入面「由口述到可用輸出」嘅完整磨擦鏈,之後先有資格做模型、做平台。


跳過具體招式直接講「語音意圖引擎」,大概率係空轉。


終局判斷


AI聽寫賽道正在經歷:

基礎能力俾系統級巨頭標準化之後,獨立產品一係向上長成「個人表達代理」(你用越耐佢越明你,轉移成本越高),一係向下插進垂直工作流(一旦接入CRM、HIS、ERP,就再也拔唔出嚟)。


中間啲「比系統自帶好少少,但冇深度綁定」嘅產品,就會係最先被淘汰嘅。


會被系統吞咗嘅:基礎轉寫、自動標點、去口頭語、簡單改寫、多語言輸入、短訊息潤色、翻譯。


Google 2026年4月已經發佈咗免費嘅AI Edge Eloquent,本地運行Gemma模型,自動去filler、改寫tone:呢個仲只係一個實驗性App,一旦整合入Android系統輸入法就係降維打擊。


Apple 2024年底已將Writing Tools(rewrite/proofread/summarize)做入iOS 18系統級。24-36個月內,呢啲能力會變成OS標配。


會留低嘅:跨app上下文感知(Wispr Flow 已經實現:喺Slack 自動用casual tone,喺電郵自動用 professional tone)、個人風格嘅長期記憶、企業術語庫、垂直場景嘅工作流綁定(醫生/律師/銷售/開發者)、深度語音編輯、本地私隱方案、同特定SaaS 嘅整合。


呢啲功能需要持續嘅個人數據累積,系統級工具短期內做唔到呢個深度。


能夠做大嘅只有兩個維度置:

一個係「個人表達代理」:用戶用得越多,AI越明你嘅風格、常用詞彙、寫作習慣。Wispr Flow 嘅數據證明咗呢條路:80%嘅6個月留存,用戶72%嘅日常打字透過語音完成,本質上已經形成輸入習慣替代。呢種產品嘅護城河係個人化數據飛輪。


另一個係「行業產出系統」:一旦接入業務系統(CRM、HIS、ERP),轉移成本極高。Otter.ai 嘅轉型係活教材:2025年3月突破$100M ARR,靠嘅已經唔係「會議摘要」,係Sales Agent(實時coaching)同SDR Agent(自動做產品demo)。訊飛醫療嘅「訊錄」都係同理:語音入去,電子病歷出嚟,嵌咗入醫院資訊系統就拔唔出。


中間地帶:「比系統輸入法好少少但冇工作流綁定嘅通用聽寫工具」:會被兩邊夾死。


三個預測


2026-2027年: 

系統級AI改寫能力完成普及。

Google AI Edge Eloquent嘅Android系統整合版大概率喺呢個時間窗口落地(當前App Store描述已提及Android系統級鍵盤整合計劃)。

Apple下一代iOS大概率將Writing Tools與Dictation打通。

結論:定價喺$5-10/月嘅「基礎AI聽寫」工具失去增長空間,獲客成本急劇上升。


Wispr Flow 呢類產品係咪真係會增速放緩?

目前冇證據。截至2026年4月佢仲係40% MoM增長,$700M估值。

如果佢嘅context awareness同個人風格記憶做得夠深,

系統級工具嘅普及反而可能幫佢教育市場:

用戶先喺系統輸入法養成語音習慣,然後因為「唔夠明我」轉移到專業工具。

類似Spotify嘅邏輯:系統播放器免費,但用戶願意為個人化體驗俾錢。


2027-2028年:

通用會議摘要工具分化。

Zoom 已經喺2024年10月從Marketplace移除Otter/Fathom/Colibri 等第三方AI工具,換成自己嘅AI Companion。但Otter 冇死:佢轉型為垂直AI Agent(Sales Agent做實時coaching,SDR Agent做自動demo),ARR由$81M(2024底)升到$100M(2025.3)。

結論:純會議摘要工具會死,能夠喺垂直場景取代人力動作嘅會生存落嚟。


2028年之後:

「AI聽寫」作為一個獨立品類名稱可能消失,但產品形態唔會消失:

會收斂到2-3個贏家,以「AI寫作OS」或「個人表達代理」嘅面目存在。

呢個好似密碼管理器嘅演化:系統自帶咗iCloud Keychain,但1Password 靠跨平台+企業功能+高級安全特性生存得好好,只係唔再叫自己做「密碼App」。


俾三類人嘅一段話


創業者

唔好做「又一個更好嘅聽寫App」。

向上做,做「用三個月之後離唔開嘅個人表達代理」:

核心指標睇用戶第90日有冇超過50%輸入透過你嘅產品完成

Wispr Flow 已經驗證咗72%呢個數字嘅可能性)。

向下做,做「某個崗位一定要填嘅表/一定要寫嘅文件」嘅語音自動化:

核心指標睇有冇接入業務系統、形成轉移成本。


投資人:

睇三個數字:

① 6個月留存(Wispr Flow 做到80%,呢個係標杆);

② 單用戶月輸入字數嘅增長曲線(越升越多代表習慣形成);

③ 個人化數據深度(有冇學到用戶嘅行業術語、常用表達、偏好格式)。

講唔出「用戶嘅數據越多產品越好用」呢個故事嘅,會被系統級能力食咗。


產品經理:

呢個賽道最可以遷移嘅能力,唔係語音識別:係「將模餬口語變成可信輸出」嘅設計能力。

具體包括:上文下理識別(用戶係寫緊電郵定發X?)、改寫強度控制(用戶想逐字定大幅改?)、

糾錯成本設計(錯咗一個字係打斷用戶定默默修正?)、信任建立(用戶幾時開始唔檢查就直接send?Wispr Flow 嘅答案係「0.5秒出結果+10%以下錯誤率」)。


呢啲問題,所有AI Agent產品都要解決。

聽寫就係Agent化嘅最小可行場景。

做過呢類產品嘅人,喺任何Agent團隊都係稀缺角色。

系統廠商攞走基礎能力,平台吞埋通用摘要,


留俾獨立產品嘅空間只剩兩塊

一係深入一個行業深到人哋唔想跟call ,一係沉澱一個人嘅表達習慣耐到人哋冇辦法加入。基礎能力歸系統,深度綁定歸場景,個人表達歸記憶。


收斂係聽日嘅事,

但選位置係今日嘅事。

選擇大過努力。


創作本文嘅一啲討論花絮


我放咗一段影片花絮,係我同九日(@九日論道)關於呢次選題嘅一啲碎片討論。

我哋仲順手做咗件事:用兩款主流 AI 聽寫軟件(Typeless和 Get 筆記),

將呢段對話嘅音頻實時轉寫咗一次:目的係令你對照影片原聲,直接感受嚇而家優秀嘅聽寫應用嘅真實水準。附測試結果:

Typeless


圖片

Get筆記
圖片
圖片


- 全文完 

圖片


過去,我們耳熟能詳的“聽寫產品”代表其實並不多,叫得上號的可能有訊飛、Otter、Notta 等。如今新生代 Plaud、WisprFlow、Typeless 等陸陸續續橫空出世,整個AI 聽寫賽道的玩家都變多了,競爭也變得更激烈了 :一場百花齊放、百家爭鳴的時代正式拉開。“聽寫”就像諸子百家起於春秋(思想萌芽,學派不多),鼎盛於戰國(百家爭鳴)。


曾經的“錄音轉文字”到現在的“AI即聽即譯”,聽寫賽道正從簡單的轉寫,變成了理解用戶在說什麼,並試圖用更好的陳述方式還原文字、從幫用戶做轉錄漸漸代替了鍵盤輸入。


傳統聽寫的範式:聲音 → 文字。ASR 準確率是核心指標。

AI 加持後的新範式:聲音 → 意圖 → 可用結果,

結果可以是一段潤色過的文本、一個結構化任務、一封寫好的郵件,甚至一個被自動執行的動作。


人的口語天生不適合直接變成書面語。重複、猶豫、口頭禪、邏輯跳躍、句子不完整:這些問題用任何 ASR 模型都解決不了。因為它們不是識別問題,而是表達問題。

所以 AI 聽寫產品真正要做的事,是補上人類口語缺失的那部分:結構、語氣、上下文、意圖、格式。


接下來,就讓我們直接進入今天的正題:


圖片
全文約1萬字,深度閲讀需要 40分鐘 
 關於AI聽寫賽道,我們做了儘可能完整的解析。內容過硬,建議先轉發,再細看


聽寫賽道的四位面戰爭


Gboard 如果明天上線一個"自動潤色聽寫文本"的按鈕,多少 AI 聽寫創業公司的估值會被削掉一半?這不是假設,而是整個賽道正在面對的現實。


Google、Apple、Samsung、Microsoft所有控制系統入口的玩家,都已經具備把"聽寫 + 清理 + 改寫"做成默認功能的技術儲備;

Whisper 類開源模型遍地都是,大模型可以反向糾正轉寫錯誤,端側推理能力正在快速提升:NPU 算力已從兩年前的個位數 TOPS 躍升到今天的 40-70+ TOPS。


未來的競爭是肉眼可見的激烈,但也並不是說中小公司就完全沒有一席之地了。

認清自己產品的定位在這個賽道里是非常重要的,你知道和誰競爭,你才知道怎麼去設計自己的大方針大方向,並在對應的大方針下優化好自己的產品。


實際上,"聽寫"這個賽道,被四股力量瓜分:

系統輸入法、AI 寫作代理、會議記憶工具、垂直工作流。

每一層的生存邏輯其實是有一定差異的。



四位面戰爭:誰吃入口,誰搶表達



第一位面:系統基建層


這一層的本質不是 App,而是操作系統的輸入基建。

代表: Gboard、Apple Dictation、Samsung Galaxy AI、Microsoft Voice Access、Nothing 手機的 Essential Voice

核心優勢:默認入口 + 系統權限 + 十億級分發。


用戶不需要安裝任何東西,打開鍵盤就能用。系統還能接觸通訊錄、日曆、文件、剪貼板。但這一層有一個結構性弱點:不敢替用戶做決定,即從錄音轉寫時的語譯策略必須保守。

它可以幫你加標點、去掉"嗯""那個",但不會把你隨口說的一段話改寫成一封正式郵件。因為一旦改錯,丟單的就是整個手機市場。


Nothing 這個手機可能對大部分人來說蠻陌生的,我們也是最近才關注到這部手機。

主要原因是它把語音輸入變成了其手機主推的輸入方式,更接近 "Voice as System Entry" :

按一下,說一句,系統替你處理(郵件,聊天)。

這種大膽的嘗試,也驗證了語音輸入在AI時代下會真的逐步代替手打鍵盤的方式,即AI聽寫的功能會越來越重要。


說句題外話,其實我們在寫這篇內容前就察覺自己的輸入方式已經在悄然被AI大模型軟件改變了。基本上,不管與哪個國內外大模型的對話方式首要就會選擇語音輸入的方式。


商業化判斷: 手機廠商不會把系統級能力交付給第三方,尤其是AI聽寫這麼重要的輸入口。

你如果執意想做一款"語音輸入法"APP(類似鍵盤輸入法應用),本質你就是在這個位面去參與競爭,但這個位面真正有話語權的參與者都是OS,你在未來就是跟 OS 直接打仗,所以贏面太小。


第二位面:表達增強層


這一層的本質,其實是在特定場景下,

基於原意做的表達增強,從而減少二次修正的時間,提升效率。

代表: Typeless、Wispr Flow、Superwhisper、Aqua、Willow、AudioPen


這一層的賣點是:

"在用戶自然語言表達之後,通過糾正語法、口癖、錯別字以及嘗試用更貼切的表達方式重組語句"來讓一段表達上較混亂的內容變成有章法、邏輯清晰的段落。像極了語文老師在替你修改作文的感覺。


Typeless 就會把它“為你節省了多少修改時間”的貢獻放在他產品的首頁,時刻提醒你,它高效如斯:

圖片

大致體驗上,我舉個例子:

你對着麥克風說:

"我剛才那個想說的是呃我們明天可能要把這個文檔發給客戶然後你看下有沒有問題。"

普通聽寫直接輸出原話,而表達增強層的應用會輸出:

"我們明天需要把這份文檔發給客戶,你能先幫我檢查一下嗎?"

差距不在識別率,在於後面那一步改寫之後的信息傳遞效率。


不過Typeless 也切了鍵盤輸入的入口,用戶可以通過調起它的鍵盤輸入口去做語音內容的轉寫。但它又能繞過和OS系統在輸入法層面上的直接競爭(就算競爭也競爭不過)。怎麼理解這句話?


首先,OS 基建位面的競爭主要集中在“泛”聊天的文本輸入場景或者咱們說是高頻的對話場景,這種場景並不需要很官方無暇的表達,只要去掉一些基本的口癖和水詞,用正確的語法去轉寫出來就行。甚至在日常對話場景中,我們更希望能還原說話人的風格。


所以在這種日常交流的泛場景下,Typeless 這種很正式的但也比較複雜的轉寫並沒有明顯的優勢,而且作為鍵盤輸入法的時候,Typeless 沒有辦法做到錄音的時候同步出文字,它的交互是要等用戶一口氣說完才會進行全篇的轉寫,這種沒有辦法即時校對文字的體感很差(如果用戶沒法第一時間知道聽寫的轉寫是否正確,很多時候人們說完了一段後也會忘記之前說的是什麼,用戶又如何校驗Typeless 是否把自己的本意轉寫完整了呢?),且一定會拖慢日常對話的節奏。


以我自己的輸入習慣為例,我只有在寫大段文章內容的時候,才會去喚起起 Typeless。但我自己日常在微信裏,直接會使用微信自帶的語音轉文字輸入法,因為我覺得那樣能保留我的一些語氣。Typeless 往往會把我的非常多的語氣給去掉,也就是那些能保留我心情的語氣詞(嗯、額、耶等)都給去掉了。

所以說,這類APP在泛場景是沒優勢的。


但在特定的輸入場景,會自動分析上下文語境的、注重表達層的APP的優勢就來了。比如你說一句:“今天先不上了,明天再看看。”

在不同場景裏,就應該變成不同風格:

  • Slack:Hey, let’s pause for today and revisit tomorrow.

  • Gmail:Hi John, I think we should hold off for today and continue the discussion tomorrow.

  • X:skipping today. revisit tmw.

  • Notion:Deferred to tomorrow for further review.


Typeless 的特殊點在於它更強調:App-aware/social-aware/vibe-aware,而不是單純的“高準確率”。

所以它會嘗試理解:這是在 dating app 裏?是在工作軟件裏?是在客服後台?是在寫 X?是在寫 PRD?然後自動切換人格。

而且在一些更為特殊的對話場景,比如你和律師溝通、和老闆彙報工作的時候,注重表達層級別的官話式改寫就變得有優勢了。


注重表達層的競爭也很激烈,產品非常多。

但它的護城河並不是靠拼技術代差,而是要拼分發,多分發多拿數據。

拿到了數據就能沉澱出用戶的個人表達模型:寫作風格、專業詞庫、歷史習慣,這樣用戶就離不開你。

這一點上,Typeless 也是那麼做的。

圖片

你可以看到它的首屏,用了非常多的佔位來展示用戶個人表達模型的完善程度。

並且會幫我收錄,去記錄我自己的用戶詞典。


圖片

此處聲明,雖然筆者這邊非常濃墨重彩地講了很多 Typeless 的案例,但是在截稿前都沒有收 Typeless 的廣告費,我們是一家中立的行業媒體(嚴肅)。

看到這兒的各位開發者,如果你有自信你的產品能讓我們團隊產生 aha moment,或者說能絲滑嵌入我們媒體團隊的日常工作流,請聯繫我(kleo945,備註開發者),我會不收一分錢地幫你用心推廣產品。


然後說一下Wispr Flow, 它和Typeless 是怎樣的競爭關係?

我們可以這樣類比:他們不是Spotify vs Apple Music(同量級對手),更像Notion vs Obsidian

  • Wispr Flow = Notion:大融資、企業市場、平台化野心、閉源、高估值、從個人工具向企業協作OS演進。

  • Typeless = Obsidian:小團隊或bootstrapped、消費者驅動、免費層慷慨、社區口碑好、在特定用戶羣(如writer、doctor、個人使用者)中贏在"性價比+準確率"。


它們短期內不會正面交戰,因為:

  • Wispr Flow 的增長引擎是企業(125新企業客戶/周),Typeless 沒有企業銷售能力(無SOC2=進不了採購流程)。

  • Typeless 的增長引擎是個人用戶的Product Hunt口碑+慷慨free tier轉化,跟Wispr Flow 搶的是不同預算線的錢。


商業化判斷:

這類產品如果把自己定位成"更好的輸入法",用戶不會付錢。

但如果定位成"效率工具":幫你省掉每天反覆潤色郵件、消息、文檔的時間:就能收費了。

ASR 準確率是基操,絲滑嵌入每天的工作流才是結果。


另外,這一層的生存條件很苛刻:

你在特定場景中必須比 OS 默認體驗的聽寫好 10 倍,用戶才會多裝一個 App。

雖然咱們說術業有專攻,OS廠商沒必要去切垂類場景,技能點也是有限的,不能無限制亂點。

但如果哪天 Gboard 非要加了個"潤色文本"按鈕,開發者的日子肯定更難受。


所以真正能活下來的,是那些最懂分發的,能快堆積個人數據沉澱和圍繞用戶垂直領域的日常工作流的:讓用戶用得越久越爽,越離不開。

就像掃描全能王,即使蘋果自創了掃描功能,仍然阻擋不了掃描全能王的增長趨勢。


第三位面:會議/記憶層


這一層的本質不是轉寫工具,而是"替你做日常會後 dirty work 的TA"。

代表:Otter、Fireflies、Granola、Fathom、Plaud、Limitless(2025年12月已被 Meta 收購)


你不想花時間整理會議紀要、梳理每個人說了什麼、接下來誰該幹什麼:它幫你幹。

長音頻轉寫、說話人區分、自動摘要、行動項提取、同步到 CRM 和 Notion,一條龍服務的明明白白。

B2B 有明確的付費意願,結果可量化,乍一看是個非常 sexy 的商業模式。


但這一層有一個結構性壓力:

會議軟件巨頭只需要在現有產品上加一個功能,就能把你逼上正面戰場拼刺刀。

Zoom AI Companion、Microsoft Teams Copilot、Google Meet Gemini,全都在做 AI 會議總結。

通用摘要的差異化正在被快速抹平。這跟我們在第二位戰爭面裏講過的邏輯一模一樣:Gboard 上線一個"潤色"按鈕,表達增強層就要重新證明自己存在的理由。平台做功能優化的成本,遠低於創業公司建立一個獨立品類的成本。


開個玩笑,如果還在卯着勁做通用會議摘要,咱們的對手不是同賽道創業公司籤KA 的速度有多快,而是 Zoom 的產品經理想要完成下個季度的 OKR的決心有多大。


那麼,這個位面能活下來的產品,只有一條路:

進入垂直工作流,把"會議摘要"變成"和業務關聯的產出"。


舉個例子:

  • 幫銷售團隊在會議結束 30 秒內自動更新 CRM 裏的客戶狀態、預算、下一步跟進動作

  • 幫招聘團隊自動生成候選人評估卡,直接同步進人才池

  • 幫用戶研究團隊從 20 場訪談裏自動提煉洞察,按主題聚類

  • 幫 PMO 團隊在會議結束 30 秒內自動輸出項目 timeline 表格:哪個階段做什麼事,哪個團隊負責配合。


單純的"會議記錄"在2026年已不是新鮮事兒,把"那個崗位上最不想做但又必須做的dirty work 做了"。這才是付費點。


題外話:硬件形態在這個位面值得單獨說一句。

Plaud 做實體錄音筆 + AI 總結,Limitless 在被 Meta 收購前做的是可穿戴記憶設備 Pendant 

它們做對了一件事:把場景從線上會議擴展到線下對話,甚至全天候個人記憶。這意味着 capture 的邊界在擴大。


很多人會忽視一個點:用一個 APP 錄音,你得先想起來打開它,這是一個非常有感知、非常刻意的動作。但如果它是一個硬件:別在胸前、貼在手機背面:你看到它,就想起來要用它。硬件的實體存在本身就是喚起機制。


從我們自己的體感來看,AI 在生活中的應用,最終一定會走向硬件和實體。

原因很簡單:

  • 硬件看得見、摸得着,帶在身上就能隨時想起來用。

  • 一個硬件給了一個可拍攝的實體,更符合influencer 們來做創作傳播。

  • 軟件藏在手機裏幾十個 APP 中間,你不刻意記着它,就會忘掉它。很多時候決定用戶留存的不是功能好不好,而是他能不能想起來去用。


但 capture 從來不是終點。

這條路線真正的分水嶺是 resurfacing:在你需要的時候重新出現。

  • 你三週前和客戶聊過的一個定價細節,在你寫方案的時候自動彈窗提示;

  • 你上個月面試候選人時提到的一個顧慮,在你做 offer 決策時彈出來;

  • 一個在會議紀要裏列得輕描淡寫的 to do,到了對應的時間點它會提醒你:這事兒你好像還沒幹。


商業化判斷 誰能把 用戶甚至不需要記得自己曾經記錄過這件事 給做好了,就贏了。


第四位面:垂直工作流層


這一層的本質是深度理解行業knowhow 的產出系統。

代表:Nuance Dragon Medical(醫療;Microsoft 以 $19.7B 收購 Nuance)、Gong/Chorus(銷售)、各類法律轉寫工具


很不sexy ,但壁壘最深的位面。需要大量前期積累,適合垂直行業 insider 老炮兒的創業方向。


護城河不來自某一項技術,而來自五層疊加:專業詞庫、合規認證、行業數據、與既有系統的綁定、用戶遷移成本。


這些都不是技術壁壘,是資源壁壘。


大廠拿通用能力複製不了,因為每一層都需要時間和行業關係去堆,說白了還是數據,LLM 廠商未必拿得到這些細分垂類的數據。


這跟我們在第三位面裏講的邏輯形成對照:會議層的創業公司怕的是 Zoom 產品經理下個季度的 OKR,而垂直工作流層怕的從來不是大廠:是競品進入行業的時間夠不夠久、在行業的knowhow 夠不夠深、渠道積累夠不夠多。


具體來說,每個垂直場景要的東西完全不一樣:

  • 醫生要的是結構化病歷,口述三分鐘,出來的是一份可以直接歸檔的病歷文書,而不是一篇需要護士再花十五分鐘整理的錄音稿。

  • 銷售不是要會議錄音:要的是客戶預算、競品信息、決策鏈、下一步跟進動作,會議結束後 CRM 自動更新。這件事我們在第三位面講過:會議摘要層的產品如果想活下來,就得往這個方向走。而垂直工作流層的產品,從第一天就得把客戶的 " next to do "給融進產品裏。

  • 律師要的是庭審記錄、證據摘要、案情梳理:而且每一段文本必須可追溯、可引用、可質證。"大概意思對了"在法庭上等於沒對。


商業化判斷:

四個位面裏,這一層是最不需要懷疑"是不是真需求"的。付費意願明確:效率提升可量化,替代方案遷移成本極高,ROI 可以精確到分鐘和人效。

真正的難點不在需求端,在供給端:行業 know-how、合規資質、系統集成、KA 客戶渠道,數據源頭。每一項都是時間換來的門檻。


我們內部判斷一個商業模式能不能跑通,通常從這四個維度拆解:產品、渠道、轉化、運營。

這一層的特點是:每一個維度單點拉長形成長板,單點突破,對於一個想切進這個市場的優秀創業團隊來說都不難,但是四個維度都做好,後來者要追上就很難了。

通用聽寫拼的是"效率",垂直工作流拼的是行業經驗和資源沉澱。


中文市場:跳過聽寫,直接進入"語音→結構化內容"


中國人對着手機說話這件事沒有心理門檻,因為微信語音消息已經訓練了十年的肌肉記憶,訊飛輸入法日語音調用超 10 億次,語音輸入在中文市場根本不存在"教育用戶"這個環節。


對比來看,Wispr Flow 的 CEO 2025 年融資時還在強調要說服用戶"voice is faster than typing",強調的核心痛點是英文用戶長期不用語音是因為系統聽寫"too dumb":中國用戶早就用腳投票了。


既然說話的習慣不用培養,問題就變成了:說完之後怎麼辦?

對短消息和搜索來說,系統輸入法已經把"說話轉文字"做到了 90 分。

訊飛、搜狗、豆包、微信語音鍵盤覆蓋了日常打字的絕大多數場景,這一層基本沒有創業公司的生存空間。但對長段落、需要"成文"的場景,系統輸入法完全不夠。


中文口語的問題不在詞彙級,我們沒有英文那麼多 um/uh/like 要清理。

問題在結構級:我們說出來的話是碎片化的,"然後"、"就是"、"那個"堆了一地,邏輯跳躍,句子不完整。


這種碎片靠"潤色"修不好,得靠結構化重組才能變成可用的產出。

英文賽道的解法是"讓口語變得像書面語":去 filler、修語法、調 tone。

中文賽道的解法得再往前一步:把口語碎片直接變成系統裏該有的那個東西。


這件事已經有人在做了:

  • 釘釘 2025 年上線語音生成日報

  • 通義聽悟把長音頻自動拆成結構化會議紀要(議題+決策+待辦)

  • 訊飛醫療的"訊錄"把醫生口述直接變成電子病歷

  • 銷售易 NeoAgent 讓銷售通過語音自動更新 CRM 記錄

這些產品驗證了同一件事:"語音→結構化產出"在中文市場有真實付費意願,"語音→純文字"沒有。


舉幾個更具象的場景:

  • 銷售拜訪完客戶,電梯裏對手機說兩分鐘,CRM 裏的客戶狀態、預算、下一步跟進 30 秒內自動寫好

  • 員工下班前對着手機說三分鐘,日報週報自動生成,格式對齊公司模板

  • 醫生邊看診邊口述,病歷草稿實時成型,回頭改兩筆就能簽字

  • 創作者講十分鐘思路,自動拆成小紅書文案、播客大綱、視頻腳本三個版本


這些工作的交付物主要是文本,而AI 最擅長文本。並且還說明了一個共性,用戶不排斥表達,但如果能節省說完之後還要坐下來花 20 分鐘把它敲成系統需要的格式。


把這 20 分鐘壓到 30 秒:這才是付費的理由。


那問題來了:切哪個場景?

會議紀要這條路已經是紅海。


飛書、通義、釘釘、訊飛巨頭在打,跟歐美 Zoom/Teams/Google Meet 擠壓 Otter 的邏輯一樣:通用摘要的差異化正在被快速抹平,創業公司很難在這個位置活下來。


藍海在更碎片化的垂直場景:

銷售的 CRM 填寫、醫生的病歷、內容創作者的多平台適配、教育場景的筆記整理。但這些場景的付費難度完全不同。


中國用戶為"省時間"付費的閾值比歐美高得多,你得讓用戶覺得"如果沒有這個工具我今晚要多花一小時",才撐得起一個獨立產品的現金流。


值得注意的是路徑選擇的差異:

Wispr Flow 2026 年推出 Command Mode,開始往結構化方向走,CEO 明確要做"voice-led operating system"。海外的路徑是先用通用聽寫獲客,再疊加結構化服務:因為英文用戶首先要被說服"語音比打字快",這一步本身就是產品價值。


中國的路徑得反過來:先從一個高痛感的結構化場景切進去,用確定性的輸出證明價值,再橫向覆蓋。 因為中國用戶已經習慣語音輸入了,只靠"轉寫"收不到錢。


終局可能殊途同歸,但起手式決定了你第一批用戶是誰、付費意願有多強、留存靠什麼撐住。


張三丰教張無忌太極劍,問他記住了多少。張無忌說全忘了,張三丰說可以上了。


這個故事被引用爛了,但放在這個賽道里有一層可以琢磨下的含義:

張無忌之所以能忘招式,是因為他已經把每一招都練過、拆過、理解過了。

忘掉的是形,留下的是對力量結構的直覺。


做中國市場的特定行業語音工作流產品也一樣:你得先把這些行業裏的髒活一個一個啃過,理解每個場景裏"從口述到可用輸出"的完整摩擦鏈,然後才有資格做模型、做平台。


跳過具體招式直接談"語音意圖引擎",大概率是空轉。


終局判斷


AI聽寫賽道正在經歷:

基礎能力被系統級巨頭標準化之後,獨立產品要麼向上長成"個人表達代理"(你用得越久它越懂你,遷移成本越高),要麼向下扎進垂直工作流(一旦接入CRM、HIS、ERP,就再也拔不出來)。


中間那些"比系統自帶好一點,但沒有深度綁定"的產品,就會是最先被幹掉的。


會被系統吞掉的:基礎轉寫、自動標點、去口頭語、簡單改寫、多語言輸入、短消息潤色、翻譯。


Google 2026年4月已經發布了免費的AI Edge Eloquent,本地運行Gemma模型,自動去filler、改寫tone:這還只是一個實驗性App,一旦集成進Android系統輸入法就是降維打擊。


Apple 2024年底已把Writing Tools(rewrite/proofread/summarize)做進了iOS 18系統級。24-36個月內,這些能力會成為OS標配。


會留下來的:跨app上下文感知(Wispr Flow 已實現:在Slack 自動用casual tone,在郵件自動用 professional tone)、個人風格的長期記憶、企業術語庫、垂直場景的工作流綁定(醫生/律師/銷售/開發者)、深度語音編輯、本地隱私方案、與特定SaaS 的集成。


這些功能需要持續的個人數據積累,系統級工具短期內做不到這個深度。


能做大的只有兩個位置:

一個是"個人表達代理":用戶用得越多,AI越懂你的風格、常用詞彙、寫作習慣。Wispr Flow 的數據證明了這條路:80%的6個月留存,用戶72%的日常打字通過語音完成,本質上已經形成了輸入習慣替代。這種產品的護城河是個性化數據飛輪。


另一個是"行業產出系統":一旦接入業務系統(CRM、HIS、ERP),遷移成本極高。Otter.ai 的轉型是活教材:2025年3月突破$100M ARR,靠的已經不是"會議摘要",是Sales Agent(實時coaching)和SDR Agent(自動做產品demo)。訊飛醫療的"訊錄"也是同理:語音進去,電子病歷出來,嵌入醫院信息系統後就拔不出來了。


中間地帶:"比系統輸入法好一點但沒有工作流綁定的通用聽寫工具":會被兩端擠死。


三個預測


2026-2027年: 

系統級AI改寫能力完成普及。

Google AI Edge Eloquent的Android系統集成版大概率在這個時間窗口落地(當前App Store描述已提及Android系統級鍵盤集成計劃)。

Apple下一代iOS大概率將Writing Tools與Dictation打通。

結論:定價在$5-10/月的"基礎AI聽寫"工具失去增長空間,獲客成本急劇上升。


Wispr Flow 這類產品是否真的會增速放緩?

目前沒有證據。截至2026年4月它仍在40% MoM增長,$700M估值。

如果它的context awareness和個人風格記憶做得足夠深,

系統級工具的普及反而可能幫它教育市場:

用戶先在系統輸入法裏養成語音習慣,然後因為"不夠懂我"遷移到專業工具。

類似Spotify的邏輯:系統播放器免費,但用戶願意為個性化體驗付費。


2027-2028年:

通用會議摘要工具分化。

Zoom 已經在2024年10月從Marketplace移除Otter/Fathom/Colibri 等第三方AI工具,替換為自己的AI Companion。但Otter 沒死:它轉型為垂直AI Agent(Sales Agent做實時coaching,SDR Agent做自動demo),ARR從$81M(2024底)漲到$100M(2025.3)。

結論:純會議摘要工具會死,能在垂直場景裏替代人力動作的會活下來。


2028年之後:

"AI聽寫"作為一個獨立品類名稱可能消失,但產品形態不會消失:

會收斂到2-3個贏家,以"AI寫作OS"或"個人表達代理"的面目存在。

這更像密碼管理器的演化:系統自帶了iCloud Keychain,但1Password 靠跨平台+企業功能+高級安全特性活得很好,只是不再叫自己"密碼App"了。


給三類人的一段話


創業者

不要做"又一個更好的聽寫App"。

往上做,做"用三個月之後離不開的個人表達代理":

核心指標看用戶第90天是否有50%以上輸入通過你的產品完成

Wispr Flow 已經驗證了72%這個數字的可能性)。

往下做,做"某個崗位必須填的表/必須寫的文檔"的語音自動化:

核心指標看是否接入了業務系統、形成遷移成本。


投資人:

看三個數:

① 6個月留存(Wispr Flow 做到80%,這是標杆);

② 單用戶月輸入字數的增長曲線(越漲越多說明習慣在形成);

③ 個人化數據深度(有沒有學到用戶的行業術語、常用表達、偏好格式)。

講不出"用戶的數據越多產品越好用"這個故事的,會被系統級能力吃掉。


產品經理:

這個賽道最可遷移的能力,不是語音識別:是"把模餬口語變成可信輸出"的設計能力。

具體包括:上下文識別(用戶在寫郵件還是發X ?)、改寫強度控制(用戶想要逐字還是大幅度改?)、

糾錯成本設計(錯了一個字是打斷用戶還是默默修正?)、信任建立(用戶什麼時候開始不檢查就直接發?Wispr Flow 的答案是"0.5秒出結果+10%以下錯誤率")。


這些問題,所有AI Agent產品都要解決。

聽寫就是Agent化的最小可行場景。

做過這類產品的人,在任何Agent團隊都是稀缺角色。

系統廠商拿走基礎能力,平台吞掉通用摘要,


留給獨立產品的空間只剩兩塊

要麼深入一個行業深到別人不願跟 call ,要麼沉澱一個人的表達習慣久到別人無法加註。基礎能力歸系統,深度綁定歸場景,個人表達歸記憶。


收斂是明天的事,

但選位置是今天的事。

選擇大於努力。


創作本文的一些討論花絮


我放了一段視頻花絮,是我和九日(@九日論道)關於這次選題時的一些碎片討論。

我們還順手做了件事:用兩款主流 AI 聽寫軟件(Typeless和 Get 筆記),

把這段對話的音頻實時轉寫了一遍 :為了讓你對照視頻的原聲,直觀感受一下當下優秀的聽寫應用的真實水準。附測試結果:

Typeless


圖片

Get筆記
圖片
圖片


- 全文完