AutoPreso：用語音實時驅動白板，讓演示內容自動畫出來

作者：惡人筆記

日期：2026年5月9日下午11:20

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

AutoPreso：用語音實時驅動白板，讓演示內容自動畫出來

整理版摘要

呢篇文章係由前Meta、Microsoft工程師 @kunchenguid 開發嘅開源工具 AutoPreso 嘅介紹。作者想解決傳統演示製作需要手動繪圖、調整佈局嘅痛點，提出咗一種「語音即演示」嘅全新交互範式。整體結論係：AutoPreso 能夠喺頭腦風暴、需求溝通、教學等場景大幅降低可視化嘅門檻，雖然目前處於Alpha階段，有繪製偏差、語音延遲等侷限，但代表咗AI工具從「做演示」轉向「說演示」嘅方向。

AutoPreso 嘅核心係利用OpenAI嘅實時語音模型（GPT-Realtime-2），配合Excalidraw畫布，達到「你講話，白板自動畫」嘅效果。佢支援Staging（預熱）同Live（直播）雙模式，仲可以本地部署，保護私隱。安裝簡單，用npm全局安裝即可啟動，瀏覽器內操作直觀。

文章亦理性分析咗工具嘅優勢同侷限：優勢係Hands-free、智能預熱、靈活部署；侷限係依賴模型能力、語音識別延遲、本地支持以Mac最好。作者建議用家做好前期準備、說話節奏適中、結合迭代使用，並強調呢個工具唔係取代PowerPoint，而係提供新交互方式。

AutoPreso 實現語音實時驅動白板，唔使手動畫圖，專注表達即可。
雙模式設計：Staging 預熱階段放種子內容，Live 模式 AI 根據語音動態繪圖。
支援雲端（OpenAI API）同本地（Moonshine+Ollama）部署，私隱友好。
目前 Alpha 階段，複雜場景可能繪製偏差，語音太快會滯後，Mac 支持最好。
前期準備充分、說話清晰分段、必要時暫停調整，可以提升體驗。

值得記低

連結 github.com

AutoPreso GitHub 倉庫

項目原始碼及文檔，包含安裝指引、配置說明同使用示範。

整理重點

語音即演示嘅新玩法

今日介紹嘅開源小神器 AutoPreso，由前Meta、Microsoft工程師開發，利用OpenAI實時語音模型，做到「你講話，白板自動畫」嘅核心體驗。唔使再一邊講一邊手忙腳亂畫圖，啱曬頭腦風暴、產品需求溝通、課堂教學呢類場景。

整理重點

四大核心亮點

AutoPreso 有幾個好實用嘅設計，值得停低睇清楚。

真正Hands-free，唔需要手動操作

1 Staging + Live 雙模式：Staging階段可以手動丟入標題、議程、參考圖片做「種子內容」；Live模式AI會根據實時語音動態繪圖、標註、調整位置。
2 智能預熱機制：進入Live前AI會針對Staging內容預熱循環，避免第一句話後模型發愣，提升連貫性。
3 靈活部署：雲端用OpenAI API Key，本地可以用Moonshine語音轉文字 + Ollama大模型，完全離線運行（Mac支持更好）。
4 本地安全服務器只綁定127.0.0.1，唔會向外網上傳演講內容。

呢啲設計令到成個體驗好流暢，演示視頻入面見到說話同時文字實時轉錄，AI快速生成圖表同連接。

整理重點

點樣用？安裝同操作流程

安裝非常簡單，推薦用npm方式。

全局安裝指令 bash

npm install -g autopreso
autopreso

唔想安裝都可以直接用 npx autopreso 啟動。啟動後自動打開瀏覽器訪問 http://127.0.0.1:3210。

1 Staging階段：喺左側Excalidraw畫布拖入或手繪種子內容（標題、關鍵點、參考圖等）。
2 配置：右側面板揀麥克風、語音轉文字模型、代理模型，仲可以填寫自定義Agent Instructions（最多10萬字符）。
3 進入Live：撳「Start Preso」開始講話，白板會實時響應。
4 隨時切換：可以返去Staging模式或Reset Session，過程流暢。

整理重點

潛力與侷限

AutoPreso 喺頭腦風暴、需求溝通、教學場景有好大潛力，邊講邊可視化，極大降低溝通成本。個人思考嘅時候亦可以即時得到視覺回饋。加上開源可本地運行，私隱友好，成本可控。

複雜場景下可能出現繪製偏差或佈局混亂

不過佢始終係Alpha階段，有幾個侷限：依賴模型能力，用戶要用口頭引導修正；語音識別延遲同白板更新同步係潛在瓶頸，講得太快會覆蓋或滯後；目前Mac本地支持最完善，其他平台推薦用OpenAI Realtime。整體嚟講，呢個工具唔可能完全取代PowerPoint，而係提供一種「說演示」嘅新範式。

整理重點

使用建議

Staging階段多放清晰嘅種子元素，Agent Instructions寫得越具體越好，例如「優先使用流程圖、保持佈局清晰、用顏色區分模塊」。
說話節奏適中，清晰分段，避免過多語氣詞，必要時用引導語如「而家畫一個柱狀圖比較A同B」。
Live過程中發現問題，可以暫停、回Staging調整再繼續。
如果有Ollama環境，優先本地部署，降低成本同私隱顧慮。

你覺得呢種「語音即演示」嘅方式會唔會改變你嘅工作或學習流程？歡迎一齊探討。

今日想同大家分享一個啱啱出現嘅開源小神器：AutoPreso。佢由前Meta、Microsoft工程師 @kunchenguid 開發，利用OpenAI最新嘅實時語音模型（GPT-Realtime-2），實現你講嘢，白板自動畫嘅核心體驗。

唔使一邊講一邊手忙腳亂咁畫圖、調整佈局、插入箭頭。只要開聲講諗法，白板就好似有咗生命咁，實時生成結構圖、流程圖、柱狀圖，甚至自動重排佈局。呢啲對腦震盪、產品需求溝通、課堂教學嚟講，簡直係降維打擊。

一、AutoPreso 核心亮點

1. 真正Hands-free（唔需要手動操作）
語音直接驅動AI代理編輯Excalidraw畫布。你只需要專注表達，AI負責可視化呈現。
2. Staging + Live雙模式

◦ Staging（預熱階段）：好似普通白板咁，先手動放入標題、議程、參考圖片或草圖，作為「種子內容」。
◦ Live（直播模式）：撳「Start Preso」之後，AI會接管畫布。根據你嘅實時語音，會動態繪圖、標註、調整位置等。

3. 智能預熱機制
進入Live前，AI會針對你嘅Staging內容進行預熱循環，避免第一句說話講完之後模型仲喺度「發呆」。咁樣極大提升咗連貫性。
4. 靈活部署

◦ 雲端：用自己嘅OpenAI API Key（支援Realtime語音同GPT-5.5等代理模型）。
◦ 本地：Moonshine本地語音轉文字 + Ollama本地大模型，完全離線運行（目前Mac支援比較好）。
而且項目本身完全免費開源。

5. 本地安全
伺服器只綁定127.0.0.1，本地網絡內運行，唔會向外網上傳你嘅演講內容。

二、點樣用？

安裝非常簡單（推薦npm方式）：

# 全局安裝（推薦）
npm install -g autopreso

# 然後直接運行
autopreso

或者唔使安裝，直接用 npx autopreso 啓動就得。啓動之後會自動打開瀏覽器，訪問 http://127.0.0.1:3210。

瀏覽器入面操作流程：

1. Staging階段：喺左側Excalidraw畫布上，拖入或者手繪你嘅種子內容（標題、關鍵點、參考圖等）。你可以自由編輯。
2. 配置：右邊面板選擇麥克風、語音轉文字模型（Moonshine或OpenAI Realtime）、代理模型（OpenAI/Codex/Ollama），仲可以填寫自定義Agent Instructions（智能體身份規則，持久保存，最多10萬個字符）。
3. 進入Live：撳「Start Preso」。而家開始講嘢，白板就會實時回應。
4. 隨時切換：覺得需要調整，可以返去Staging模式，或者Reset Session。

成個過程好流暢，示範片入面見到講嘢嘅同時，文字實時轉錄，AI快速生成圖表同連接，效果非常自然。

三、分析：潛力同限制

優勢同適用場景：

• 腦震盪/需求溝通：邊傾邊可視化，結構圖、流程圖自動出現，極大降低溝通成本。
• 教學場景：老師講課時，知識點隨講隨畫，學生可以直觀睇到知識結構嘅動態構建。
• 個人思考：一個人自言自語整理思路嗰陣，都可以得到實時視覺反饋。
• 開源+可以本地運行，私隱友好，成本可控。

目前限制（Alpha階段）：

• 依賴模型能力，複雜場景下可能出現繪製偏差或者佈局混亂，需要用家口頭引導修正。
• 語音識別延遲同白板更新同步係潛在瓶頸，講得太快嘅時候，可能出現覆蓋或者滯後。
• 目前Mac本地支援最完善，其他平台建議優先使用OpenAI Realtime。
• 作為早期項目，穩定性仲喺度迭代中，唔適合極度正式嘅高壓演示場景（可以作為輔助工具）。

總括嚟講，佢唔可能完全取代PowerPoint，而係提供咗一種全新互動範式：由「做演示」轉向「講演示」。呢個符合AI工具演進嘅方向，令技術隱形，令人類專注核心價值。

四、使用建議

1. 前期準備充足：Staging階段多放清晰嘅種子元素，Agent Instructions寫得越具體越好（例如「優先使用流程圖、保持佈局清晰、用顏色區分模塊」）。
2. 講話節奏適中：清晰、分段，避免太多語氣詞。必要時用「而家畫一個柱狀圖比較A同B」噉樣嘅引導語。
3. 結合迭代：Live過程中發現問題，可以暫停、返Staging調整，再繼續。
4. 本地優先嘗試：如果有Ollama環境，優先本地部署，降低成本同私隱顧慮。

項目地址：https://github.com/kunchenguid/autopreso

你覺得呢種「語音即演示」嘅方式會改變你嘅工作/學習流程嗎？我哋下期繼續傾更多前沿開源AI工具！

（本文基於GitHub公開資訊同示範片整理，觀點中立，僅供參考。AI工具發展迅速，建議親身體驗最新版本。）

今天想和大家分享一個剛剛冒出來的開源小神器：AutoPreso。它由前Meta、Microsoft工程師 @kunchenguid 開發，利用OpenAI最新的實時語音模型（GPT-Realtime-2），實現你說話，白板自動畫的核心體驗。

不需要一邊講一邊手忙腳亂地畫圖、調整佈局、插入箭頭。只要開口講想法，白板就像有了生命一樣，實時生成結構圖、流程圖、柱狀圖，甚至自動重排佈局。這對頭腦風暴、產品需求溝通、課堂教學來說，簡直是降維打擊了。

一、AutoPreso 核心亮點

1. 真正Hands-free（不需要手動操作）
語音直接驅動AI代理編輯Excalidraw畫布。你只需專注表達，AI負責可視化呈現。
2. Staging + Live雙模式

◦ Staging（預熱階段）：像普通白板一樣，先手動丟入標題、議程、參考圖片或草圖，作為“種子內容”。
◦ Live（直播模式）：點擊“Start Preso”後，AI會接管畫布。根據你的實時語音，會動態繪圖、標註、調整位置等。

3. 智能預熱機制
進入Live前，AI會針對你的Staging內容進行預熱循環，避免第一句話說完後模型還在“發愣”。這極大提升了連貫性。
4. 靈活部署

◦ 雲端：用自己的OpenAI API Key（支持Realtime語音和GPT-5.5等代理模型）。
◦ 本地：Moonshine本地語音轉文字 + Ollama本地大模型，完全離線運行（目前Mac支持更好）。
而且項目本身完全免費開源。

5. 本地安全
服務器只綁定127.0.0.1，本地網絡內運行，不會向外網上傳你的演講內容。

二、如何使用？

安裝非常簡單（推薦npm方式）：

# 全局安裝（推薦）
npm install -g autopreso

# 然後直接運行
autopreso

或者不用安裝，直接用 npx autopreso 啓動即可。啓動後會自動打開瀏覽器，訪問 http://127.0.0.1:3210。

瀏覽器內操作流程：

1. Staging階段：在左側Excalidraw畫布上，拖入或手繪你的種子內容（標題、關鍵點、參考圖等）。你可以自由編輯。
2. 配置：右側面板選擇麥克風、語音轉文字模型（Moonshine或OpenAI Realtime）、代理模型（OpenAI/Codex/Ollama），還可以填寫自定義Agent Instructions（智能體身份規則，持久保存，最多10萬字符）。
3. 進入Live：點擊“Start Preso”。現在開始說話，白板就會實時響應。
4. 隨時切換：覺得需要調整，可以回到Staging模式，或Reset Session。

整個過程流暢，演示視頻裏能看到說話的同時，文字實時轉錄，AI快速生成圖表和連接，效果非常自然。

三、分析：潛力與侷限

優勢與適用場景：

• 頭腦風暴/需求溝通：邊聊邊可視化，結構圖、流程圖自動出現，極大降低溝通成本。
• 教學場景：老師講課時，知識點隨講隨畫，學生能直觀看到知識結構的動態構建。
• 個人思考：一個人自言自語梳理思路時，也能得到實時視覺反饋。
• 開源+可本地運行，隱私友好，成本可控。

當前侷限（Alpha階段）：

• 依賴模型能力，複雜場景下可能出現繪製偏差或佈局混亂，需要用戶口頭引導修正。
• 語音識別延遲和白板更新同步是潛在瓶頸，講得太快時，可能出現覆蓋或滯後。
• 目前Mac本地支持最完善，其他平台推薦優先用OpenAI Realtime。
• 作為早期項目，穩定性還在迭代中，不適合極致正式的高壓演示場景（可作為輔助工具）。

總體來說，它不可能完全取代PowerPoint，而是提供了一種全新交互範式：從“做演示”轉向“說演示”。這符合AI工具演進的方向，讓技術隱形，讓人類專注核心價值。

四、使用建議

1. 前期準備充分：Staging階段多放清晰的種子元素，Agent Instructions寫得越具體越好（例如“優先使用流程圖、保持佈局清晰、用顏色區分模塊”）。
2. 說話節奏適中：清晰、分段，避免過多語氣詞。必要時用“現在畫一個柱狀圖比較A和B”這樣的引導語。
3. 結合迭代：Live過程中發現問題，可以暫停、回Staging調整，再繼續。
4. 本地優先嚐試：如果有Ollama環境，優先本地部署，降低成本和隱私顧慮。

項目地址：https://github.com/kunchenguid/autopreso

你覺得這種“語音即演示”的方式會改變你的工作/學習流程嗎？我們下期繼續聊更多前沿開源AI工具！

（本文基於GitHub公開信息和演示視頻整理，觀點中立，僅供參考。AI工具發展迅速，建議親自體驗最新版本。）