如果你哋用過 Windows(下圖)同 macOS 系統自帶嘅聽寫功能,大概都會對「語音輸入」抱持一種謹慎嘅期待:佢當然有用,但亦都好容易令人失望。最早嘅階段,我哋用 OS 自帶聽寫,講兩句說話,屏幕上會出現一段大致正確嘅文字。不過嗰種體驗好多時只係停留喺「用得」嘅程度。因為講完之後,依然要大量手動編輯:口語入面嘅停頓、重複、改口,甚至口誤,都會原封不動咁「轉錄」落文本度,最後改稿嘅成本並唔低。我好多時都係更鐘意用鍵盤輸入。原因好簡單:鍵盤容許我哋邊寫邊停頓,來回修改,甚至打半句就推倒重來,呢度有一種好舒服嘅「思考節奏感」。有人話咁樣效率低,我就唔完全認同。我更願意相信:慢亦係一種快。仲有一個冇辦法忽略嘅因素,係「公共場合嘅尷尬」。喺辦公室、咖啡店、地鐵上面,對住手機或者電腦講嘢,總會令人覺得自己好似傻仔咁。就算周圍嘅人根本唔在意,我哋自己都好難完全放鬆。所以坦白講,好多時候我依然會用返鍵盤,甚至喺好長一段時間入面都排斥語音輸入。當然,語音輸入唔係一無是處。佢其實好適合兩類場景:一類係大段文字嘅一次性輸入,事後先統一編輯。例如寫長文嗰陣,降低輸入成本嘅價值就好明顯。另一類係非常簡短嘅互動,聽寫幾乎唔會產生歧義,亦唔需要手動修正,呢個時候回報就好直接。但係對於「介乎兩者之間」嘅內容,尤其係嗰啲邊寫邊諗、隨時調整結構嘅文本,傳統語音輸入就好難發揮作用。邊講邊改,太痛苦喇。因此,我哋自然會避開「邊講邊改」呢種場景。但再諗深一層:既然 AI 已經咁發達,點解佢唔可以更準確咁一次過識別,甚至順便優化我哋嘅口語表達,將結果變做一段更令人滿意嘅文本呢?直到最近,AI 輸入法嘅變化先開始變得有趣。
Typeless 登場
我接觸到 Typeless 呢種 AI 語音輸入法之後,第一次覺得語音輸入唔使再俾人拎嚟同「鍵盤」比較。Typeless 嘅體驗確實好過我之前用過嘅好多所謂「智能」語音輸入法。相比之下,有啲產品更加似係吹水。不過我都清楚,呢個窗口期可能唔會好長。好快就會有其他語音輸入法跟貼,整體品質會大幅上升,甚至 Windows 同 macOS 自帶嘅聽寫都可能變得同 Typeless 一樣咁好,呢個只係時間問題。或者唔使一年,甚至喺你哋讀緊呢篇文章嘅時候,類似嘅產品或者更新已經出現咗。所以接下來我對 Typeless 嘅介紹,就當係俾大家提早睇咗一眼不久之後嘅未來。先講現狀:Typeless 係一個跨操作系統、跨裝置嘅產品。仲有第啲類似嘅 AI 輸入法,我相信佢哋好快就會參照 Typeless 嘅方向去做強化。
舉個實際例子:撳咗聽寫快捷鍵之後,我哋講一段說話,鬆開快捷鍵,Typeless 會思考幾秒鐘,然後一段整理好嘅文本就會即刻出現喺屏幕上。有時候,喺當前冇輸入焦點嘅情況下,呢段整理好嘅文字會直接入咗剪貼簿,我哋可以之後貼去任何地方。Typeless 後台亦有轉錄歷史記錄,支援隨時關閉,或者設定定時自動清理。仲有一個幾神奇嘅功能:我哋可以喺屏幕中揀選一段現有文字,然後撳快捷鍵話「幫我翻譯成某某語言」,例如「西班牙文」,呢段文字就會即刻變成想要嘅樣。咁樣一下子壓縮咗好多翻譯類小應用、小插件嘅價值空間。實際上,「輸入法」只係個開始。Typeless 嘅目標唔止係幫我哋更快輸入,而係透過語音接口更好咁表達意圖。翻譯、聽寫都只係起點,好多 AI 小插件以後真係可以收皮。現實啲講,喺操作系統面前,Typeless 都只係一個小插件,macOS 同 Windows 隨時都可以將呢啲能力系統級集成埋。只不過大廠通常動作慢啲,佢哋往往會等市場足夠接受、反應夠好之後,先一次過嚟「摘桃子」。
一啲注意事項
要注意私隱問題:Typeless 目前唔係裝置端本地模型嘅輸入法。呢個都解釋咗點解佢辨識嗰陣要「思考」幾秒,因為需要雲端分析。我哋講嘅說話會被傳送出去。無論商家點樣保證「零留存」「冇記錄」嚟保護私隱,我哋始終要意識到:數據確實離開咗裝置。至於願唔願意承受呢個代價,或者只對「唔敏感」內容用聽寫,呢個就見仁見智啦。Typeless 有免費使用額度,超過額度可以訂閲 Pro 版。但定價模式我個人就唔係好 like。雖然佢功能表現出色,的確容易令人有俾錢嘅衝動,但高昂嘅月費配合大幅折扣嘅年費,總令人覺得係一種熟悉嘅「綁住用戶」套路。時間窗口可能唔長:暗示唔夠一年,市場可能會有大變化,所以先用一年約鎖住用戶係比較理性嘅策略。即使係咁,我都要講返句,Typeless 產品體驗的確好出色,依然有資格收呢個價,唔似得啲吹水呃人嘅 AI 玩具。
如果大家用過 Windows (下圖)和 macOS 的系統自帶聽寫,大概都會對「語音輸入」保持一種謹慎的期待:它當然有用,但也很容易讓人失望。最早的階段,我們用 OS 自帶聽寫,說兩句話,屏幕上會出現一段大致正確的文字。可那種體驗往往也就止步於「能用」。因為說完之後,還是需要大量手工編輯:口語裏的停頓、重複、改口,甚至口誤,都會被原封不動地「轉錄」進文本里,最後修稿的成本並不低。我很多時候還是更喜歡鍵盤輸入。原因很簡單:鍵盤允許我們邊寫邊停頓,來回修改,甚至先打出半句話再推翻重來,這裏面有一種很舒服的「思考節奏感」。有人說這樣效率低,我倒不完全認同。我更願意相信:慢也是一種快。還有一個無法忽略的因素,是「公共場合的尷尬」。在辦公室、咖啡館、地鐵上,對着手機或電腦說話,總會讓人感覺自己像個傻瓜。哪怕周圍的人根本不在意,我們自己也很難完全放鬆。所以坦白說,很多時候我還是會退回鍵盤,甚至會在很長一段時間裏排斥語音輸入。當然,語音輸入並非一無是處。它其實很適合兩類場景:一類是大段文字的一次性輸入,事後再統一編輯。比如寫長文時,削弱輸入成本的價值就很明顯。另一類是非常簡短的交互,聽寫幾乎不會產生歧義,也不需要手工修正,這時候回報也很直觀。但對「介於兩者之間」的內容,尤其是那種邊寫邊想、隨時調整結構的文本,傳統語音輸入就很難發揮作用。邊說邊改,太痛苦了。因此,我們會自然迴避「邊說邊改」這種場景。但再進一步想:既然 AI 已經這麼發達了,為什麼它不能更準確地一次識別,甚至順手優化我們的口語表達,把結果變成一段更令人滿意的文本呢?直到最近,AI 輸入法的變化才開始顯得有意思。
Typeless 登場
我接觸到 Typeless 這種 AI 語音輸入法之後,第一次感覺語音輸入不必再被拿來和「鍵盤」競爭了。Typeless 的體驗確實勝過我之前用過的很多所謂「智能」語音輸入法。對比之下,有些產品更像是在吹牛。不過我也清楚,這個窗口期可能並不長。很快其他語音輸入法就會跟上,整體質量會大幅上升,甚至 Windows 和 macOS 自帶的聽寫也可能會變得和 Typeless 一樣優秀,這只是早晚的問題。也許不用一年,甚至在大家讀到這篇文章時,類似的產品或更新就已經出現了。所以接下來我對 Typeless 的介紹,就當作讓大家提前看了一眼不久後的未來。先說現狀:Typeless 是個多操作系統,多端的產品。其它也有一些類似的 AI 輸入法,我相信它們很快會對照 Typeless 的方向做增強。
舉個實際例子:按下聽寫快捷鍵後,我們說一段話,鬆開快捷鍵,Typeless 會思考幾秒鐘,然後一段整理過的文本就會躍然屏上。有時候,在當前沒有輸入焦點的情況下,這段整理後的文字也會直接進入剪貼板,我們可以稍後粘貼到任何地方。Typeless 後台也有轉錄歷史記錄,支持隨時關閉,或者設置定時自動清理。還有一個挺神奇的功能:我們可以在屏幕中選中一段已有文本,然後按下快捷鍵說「幫我翻譯成某某語言」,比如「西班牙文」,這段文字就會立刻變成期望的樣子。這一下子把很多翻譯類小應用、小插件的價值空間都擠壓了。實際上,「輸入法」只是個開始。Typeless 的目標不只是幫我們更快輸入,而是通過語音接口更好地表達意圖。翻譯、聽寫都只是起點,很多 AI 小插件以後恐怕真的可以洗洗睡了。更現實一點說,在操作系統面前,Typeless 也只是個小插件,macOS 和 Windows 隨時都可以把這些能力系統級集成進去。只不過大廠通常動作更慢,它們往往會等市場足夠接受、反響足夠好之後,再來一次性「摘桃子」。
一些注意點
需要注意的是隱私問題:Typeless 目前不是端側本地模型的輸入法。這也解釋了為什麼它識別時會「思考」幾秒,因為需要雲端解析。我們說的話會被傳送出去。無論商家如何承諾「零留存」「無記錄」來保護隱私,我們始終要意識到:數據確實離開了設備。至於是否願意承受這個代價,或者只對「不敏感」內容使用聽寫,這是見仁見智的選擇。Typeless 有免費使用額度,超過額度可以訂閲 Pro 版。但定價模式我個人不太喜歡。雖然它功能表現出色,確實容易讓人產生付費衝動,但高昂的月付價格配上大幅折扣的年付價格,總讓人感到一種熟悉的「捆綁用戶」套路。時間窗口也許不長:暗示不到一年,市場可能就會有大變化,所以先把用戶鎖一年是比較理性的策略。 儘管如此,我還是不得不說,Typeless 產品體驗的確很出色,還是有資格要價的,不像那些吹牛騙人的 AI 玩具。