AutoPreso:用語音實時驅動白板,讓演示內容自動畫出來

作者:惡人筆記
日期:2026年5月9日 下午11:20
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

AutoPreso:用語音實時驅動白板,讓演示內容自動畫出來

整理版摘要

呢篇文章係由前Meta、Microsoft工程師 @kunchenguid 開發嘅開源工具 AutoPreso 嘅介紹。作者想解決傳統演示製作需要手動繪圖、調整佈局嘅痛點,提出咗一種「語音即演示」嘅全新交互範式。整體結論係:AutoPreso 能夠喺頭腦風暴、需求溝通、教學等場景大幅降低可視化嘅門檻,雖然目前處於Alpha階段,有繪製偏差、語音延遲等侷限,但代表咗AI工具從「做演示」轉向「說演示」嘅方向。

AutoPreso 嘅核心係利用OpenAI嘅實時語音模型(GPT-Realtime-2),配合Excalidraw畫布,達到「你講話,白板自動畫」嘅效果。佢支援Staging(預熱)同Live(直播)雙模式,仲可以本地部署,保護私隱。安裝簡單,用npm全局安裝即可啟動,瀏覽器內操作直觀。

文章亦理性分析咗工具嘅優勢同侷限:優勢係Hands-free、智能預熱、靈活部署;侷限係依賴模型能力、語音識別延遲、本地支持以Mac最好。作者建議用家做好前期準備、說話節奏適中、結合迭代使用,並強調呢個工具唔係取代PowerPoint,而係提供新交互方式。

  • AutoPreso 實現語音實時驅動白板,唔使手動畫圖,專注表達即可。
  • 雙模式設計Staging 預熱階段放種子內容,Live 模式 AI 根據語音動態繪圖。
  • 支援雲端(OpenAI API)同本地(Moonshine+Ollama)部署,私隱友好。
  • 目前 Alpha 階段,複雜場景可能繪製偏差,語音太快會滯後,Mac 支持最好。
  • 前期準備充分、說話清晰分段、必要時暫停調整,可以提升體驗。
值得記低
連結 github.com

AutoPreso GitHub 倉庫

項目原始碼及文檔,包含安裝指引、配置說明同使用示範。

整理重點

語音即演示嘅新玩法

今日介紹嘅開源小神器 AutoPreso,由前MetaMicrosoft工程師開發,利用OpenAI實時語音模型,做到「你講話,白板自動畫」嘅核心體驗。唔使再一邊講一邊手忙腳亂畫圖,啱曬頭腦風暴、產品需求溝通、課堂教學呢類場景。

整理重點

四大核心亮點

AutoPreso 有幾個好實用嘅設計,值得停低睇清楚。

真正Hands-free,唔需要手動操作

  1. 1 Staging + Live 雙模式Staging階段可以手動丟入標題、議程、參考圖片做「種子內容」;Live模式AI會根據實時語音動態繪圖、標註、調整位置。
  2. 2 智能預熱機制:進入Live前AI會針對Staging內容預熱循環,避免第一句話後模型發愣,提升連貫性。
  3. 3 靈活部署:雲端用OpenAI API Key,本地可以用Moonshine語音轉文字 + Ollama大模型,完全離線運行(Mac支持更好)。
  4. 4 本地安全服務器只綁定127.0.0.1,唔會向外網上傳演講內容。

呢啲設計令到成個體驗好流暢,演示視頻入面見到說話同時文字實時轉錄,AI快速生成圖表同連接。

整理重點

點樣用?安裝同操作流程

安裝非常簡單,推薦用npm方式。

全局安裝指令 bash
npm install -g autopreso
autopreso

唔想安裝都可以直接用 npx autopreso 啟動。啟動後自動打開瀏覽器訪問 http://127.0.0.1:3210。

  1. 1 Staging階段:喺左側Excalidraw畫布拖入或手繪種子內容(標題、關鍵點、參考圖等)。
  2. 2 配置:右側面板揀麥克風、語音轉文字模型、代理模型,仲可以填寫自定義Agent Instructions(最多10萬字符)。
  3. 3 進入Live:撳「Start Preso」開始講話,白板會實時響應。
  4. 4 隨時切換:可以返去Staging模式或Reset Session,過程流暢。
整理重點

潛力與侷限

AutoPreso 喺頭腦風暴、需求溝通、教學場景有好大潛力,邊講邊可視化,極大降低溝通成本。個人思考嘅時候亦可以即時得到視覺回饋。加上開源可本地運行,私隱友好,成本可控。

複雜場景下可能出現繪製偏差或佈局混亂

不過佢始終係Alpha階段,有幾個侷限:依賴模型能力,用戶要用口頭引導修正;語音識別延遲同白板更新同步係潛在瓶頸,講得太快會覆蓋或滯後;目前Mac本地支持最完善,其他平台推薦用OpenAI Realtime。整體嚟講,呢個工具唔可能完全取代PowerPoint,而係提供一種「說演示」嘅新範式。

整理重點

使用建議

  • Staging階段多放清晰嘅種子元素,Agent Instructions寫得越具體越好,例如「優先使用流程圖、保持佈局清晰、用顏色區分模塊」。
  • 說話節奏適中,清晰分段,避免過多語氣詞,必要時用引導語如「而家畫一個柱狀圖比較A同B」。
  • Live過程中發現問題,可以暫停、回Staging調整再繼續。
  • 如果有Ollama環境,優先本地部署,降低成本同私隱顧慮。

你覺得呢種「語音即演示」嘅方式會唔會改變你嘅工作或學習流程?歡迎一齊探討。

今日想同大家分享一個啱啱出現嘅開源小神器:AutoPreso。佢由前Meta、Microsoft工程師 @kunchenguid 開發,利用OpenAI最新嘅實時語音模型(GPT-Realtime-2),實現你講嘢,白板自動畫嘅核心體驗。

唔使一邊講一邊手忙腳亂咁畫圖、調整佈局、插入箭頭。只要開聲講諗法,白板就好似有咗生命咁,實時生成結構圖、流程圖、柱狀圖,甚至自動重排佈局。呢啲對腦震盪、產品需求溝通、課堂教學嚟講,簡直係降維打擊。

一、AutoPreso 核心亮點

  1. 1. 真正Hands-free(唔需要手動操作)
    語音直接驅動AI代理編輯Excalidraw畫布。你只需要專注表達,AI負責可視化呈現。
  2. 2. Staging + Live雙模式
    • ◦ Staging(預熱階段):好似普通白板咁,先手動放入標題、議程、參考圖片或草圖,作為「種子內容」。
    • ◦ Live(直播模式):撳「Start Preso」之後,AI會接管畫布。根據你嘅實時語音,會動態繪圖、標註、調整位置等。
  3. 3. 智能預熱機制
    進入Live前,AI會針對你嘅Staging內容進行預熱循環,避免第一句說話講完之後模型仲喺度「發呆」。咁樣極大提升咗連貫性。
  4. 4. 靈活部署
    • ◦ 雲端:用自己嘅OpenAI API Key(支援Realtime語音同GPT-5.5等代理模型)。
    • ◦ 本地:Moonshine本地語音轉文字 + Ollama本地大模型,完全離線運行(目前Mac支援比較好)。
      而且項目本身完全免費開源。
  5. 5. 本地安全
    伺服器只綁定127.0.0.1,本地網絡內運行,唔會向外網上傳你嘅演講內容。

二、點樣用?

安裝非常簡單(推薦npm方式):

# 全局安裝(推薦)
npm install -g autopreso

# 然後直接運行
autopreso

或者唔使安裝,直接用 npx autopreso 啓動就得。啓動之後會自動打開瀏覽器,訪問 http://127.0.0.1:3210。

瀏覽器入面操作流程:

  1. 1. Staging階段:喺左側Excalidraw畫布上,拖入或者手繪你嘅種子內容(標題、關鍵點、參考圖等)。你可以自由編輯。
  2. 2. 配置:右邊面板選擇麥克風、語音轉文字模型(Moonshine或OpenAI Realtime)、代理模型(OpenAI/Codex/Ollama),仲可以填寫自定義Agent Instructions(智能體身份規則,持久保存,最多10萬個字符)。
  3. 3. 進入Live:撳「Start Preso」。而家開始講嘢,白板就會實時回應。
  4. 4. 隨時切換:覺得需要調整,可以返去Staging模式,或者Reset Session。
圖片

成個過程好流暢,示範片入面見到講嘢嘅同時,文字實時轉錄,AI快速生成圖表同連接,效果非常自然。

三、分析:潛力同限制

優勢同適用場景:

  • • 腦震盪/需求溝通:邊傾邊可視化,結構圖、流程圖自動出現,極大降低溝通成本。
  • • 教學場景:老師講課時,知識點隨講隨畫,學生可以直觀睇到知識結構嘅動態構建。
  • • 個人思考:一個人自言自語整理思路嗰陣,都可以得到實時視覺反饋。
  • • 開源+可以本地運行,私隱友好,成本可控。

目前限制(Alpha階段):

  • • 依賴模型能力,複雜場景下可能出現繪製偏差或者佈局混亂,需要用家口頭引導修正。
  • • 語音識別延遲同白板更新同步係潛在瓶頸,講得太快嘅時候,可能出現覆蓋或者滯後。
  • • 目前Mac本地支援最完善,其他平台建議優先使用OpenAI Realtime。
  • • 作為早期項目,穩定性仲喺度迭代中,唔適合極度正式嘅高壓演示場景(可以作為輔助工具)。

總括嚟講,佢唔可能完全取代PowerPoint,而係提供咗一種全新互動範式:由「做演示」轉向「講演示」。呢個符合AI工具演進嘅方向,令技術隱形,令人類專注核心價值。

四、使用建議

  1. 1. 前期準備充足:Staging階段多放清晰嘅種子元素,Agent Instructions寫得越具體越好(例如「優先使用流程圖、保持佈局清晰、用顏色區分模塊」)。
  2. 2. 講話節奏適中:清晰、分段,避免太多語氣詞。必要時用「而家畫一個柱狀圖比較A同B」噉樣嘅引導語。
  3. 3. 結合迭代:Live過程中發現問題,可以暫停、返Staging調整,再繼續。
  4. 4. 本地優先嘗試:如果有Ollama環境,優先本地部署,降低成本同私隱顧慮。

項目地址:https://github.com/kunchenguid/autopreso

你覺得呢種「語音即演示」嘅方式會改變你嘅工作/學習流程嗎?我哋下期繼續傾更多前沿開源AI工具!

(本文基於GitHub公開資訊同示範片整理,觀點中立,僅供參考。AI工具發展迅速,建議親身體驗最新版本。)

圖片

今天想和大家分享一個剛剛冒出來的開源小神器:AutoPreso。它由前Meta、Microsoft工程師 @kunchenguid 開發,利用OpenAI最新的實時語音模型(GPT-Realtime-2),實現你說話,白板自動畫的核心體驗。

不需要一邊講一邊手忙腳亂地畫圖、調整佈局、插入箭頭。只要開口講想法,白板就像有了生命一樣,實時生成結構圖、流程圖、柱狀圖,甚至自動重排佈局。這對頭腦風暴、產品需求溝通、課堂教學來說,簡直是降維打擊了。

一、AutoPreso 核心亮點

  1. 1. 真正Hands-free(不需要手動操作)
    語音直接驅動AI代理編輯Excalidraw畫布。你只需專注表達,AI負責可視化呈現。
  2. 2. Staging + Live雙模式
    • ◦ Staging(預熱階段):像普通白板一樣,先手動丟入標題、議程、參考圖片或草圖,作為“種子內容”。
    • ◦ Live(直播模式):點擊“Start Preso”後,AI會接管畫布。根據你的實時語音,會動態繪圖、標註、調整位置等。
  3. 3. 智能預熱機制
    進入Live前,AI會針對你的Staging內容進行預熱循環,避免第一句話說完後模型還在“發愣”。這極大提升了連貫性。
  4. 4. 靈活部署
    • ◦ 雲端:用自己的OpenAI API Key(支持Realtime語音和GPT-5.5等代理模型)。
    • ◦ 本地:Moonshine本地語音轉文字 + Ollama本地大模型,完全離線運行(目前Mac支持更好)。
      而且項目本身完全免費開源。
  5. 5. 本地安全
    服務器只綁定127.0.0.1,本地網絡內運行,不會向外網上傳你的演講內容。

二、如何使用?

安裝非常簡單(推薦npm方式):

# 全局安裝(推薦)
npm install -g autopreso

# 然後直接運行
autopreso

或者不用安裝,直接用 npx autopreso 啓動即可。啓動後會自動打開瀏覽器,訪問 http://127.0.0.1:3210。

瀏覽器內操作流程:

  1. 1. Staging階段:在左側Excalidraw畫布上,拖入或手繪你的種子內容(標題、關鍵點、參考圖等)。你可以自由編輯。
  2. 2. 配置:右側面板選擇麥克風、語音轉文字模型(Moonshine或OpenAI Realtime)、代理模型(OpenAI/Codex/Ollama),還可以填寫自定義Agent Instructions(智能體身份規則,持久保存,最多10萬字符)。
  3. 3. 進入Live:點擊“Start Preso”。現在開始說話,白板就會實時響應。
  4. 4. 隨時切換:覺得需要調整,可以回到Staging模式,或Reset Session。
圖片

整個過程流暢,演示視頻裏能看到說話的同時,文字實時轉錄,AI快速生成圖表和連接,效果非常自然。

三、分析:潛力與侷限

優勢與適用場景:

  • • 頭腦風暴/需求溝通:邊聊邊可視化,結構圖、流程圖自動出現,極大降低溝通成本。
  • • 教學場景:老師講課時,知識點隨講隨畫,學生能直觀看到知識結構的動態構建。
  • • 個人思考:一個人自言自語梳理思路時,也能得到實時視覺反饋。
  • • 開源+可本地運行,隱私友好,成本可控。

當前侷限(Alpha階段):

  • • 依賴模型能力,複雜場景下可能出現繪製偏差或佈局混亂,需要用戶口頭引導修正。
  • • 語音識別延遲和白板更新同步是潛在瓶頸,講得太快時,可能出現覆蓋或滯後。
  • • 目前Mac本地支持最完善,其他平台推薦優先用OpenAI Realtime。
  • • 作為早期項目,穩定性還在迭代中,不適合極致正式的高壓演示場景(可作為輔助工具)。

總體來說,它不可能完全取代PowerPoint,而是提供了一種全新交互範式:從“做演示”轉向“說演示”。這符合AI工具演進的方向,讓技術隱形,讓人類專注核心價值。

四、使用建議

  1. 1. 前期準備充分:Staging階段多放清晰的種子元素,Agent Instructions寫得越具體越好(例如“優先使用流程圖、保持佈局清晰、用顏色區分模塊”)。
  2. 2. 說話節奏適中:清晰、分段,避免過多語氣詞。必要時用“現在畫一個柱狀圖比較A和B”這樣的引導語。
  3. 3. 結合迭代:Live過程中發現問題,可以暫停、回Staging調整,再繼續。
  4. 4. 本地優先嚐試:如果有Ollama環境,優先本地部署,降低成本和隱私顧慮。

項目地址:https://github.com/kunchenguid/autopreso

你覺得這種“語音即演示”的方式會改變你的工作/學習流程嗎?我們下期繼續聊更多前沿開源AI工具!

(本文基於GitHub公開信息和演示視頻整理,觀點中立,僅供參考。AI工具發展迅速,建議親自體驗最新版本。)

圖片