不會剪輯也能5分鐘出片？FFmpeg+Faster-Whisper+HyperFrames剪輯，附詳細安裝使用教程

作者：AI科技驛站

日期：2026年5月20日上午12:38

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

用FFmpeg、Faster-Whisper同HyperFrames三件套，就算唔識剪片都做到5分鐘出片

整理版摘要

作者係一個做咗兩年自媒體嘅人，一直唔識拍片，覺得PR、時間軸呢啲嘢好難學，視覺感又差，所以遲遲冇入局短視頻。直到佢試咗一套由三個GitHub開源項目串成嘅「AI視頻流水線」，先發現原來唔使學剪輯軟件，只要識得將工具組合埋一齊，就可以快速出片。佢今次分享嘅核心結論係：FFmpeg、Faster-Whisper同HyperFrames呢三套工具加埋AI，可以幫你喺5分鐘構思、20分鐘渲染出一條似樣嘅視頻。

FFmpeg係視頻處理嘅基礎工具，負責剪接、轉格式；Faster-Whisper係OpenAI Whisper嘅加速版，可以快速將語音轉成字幕；HyperFrames就係用HTML寫動畫嘅框架，完全開源，唔使打包，仲可以同AI配合使用。作者將佢哋串成一條流水線：先用AI幫手寫HyperFrames嘅動畫模板，再用Faster-Whisper生成字幕，最後用FFmpeg合併輸出。佢話實際用起嚟，成個過程由諗文案到出片，大約只需20分鐘。

以前拍片嘅門檻係你識唔識用剪輯軟件，而家嘅門檻變成你識唔識得將工具串埋一齊。作者覺得呢個世界正獎勵啲善用工具表達自己嘅人，所以佢將成套配置包整理好，包括HyperFrames項目模板、字幕腳本同FFmpeg常用命令速查表，只要加微信就可以攞到。

結論：用AI加開源工具，就算冇剪片經驗都可以快得出片。
方法：三件套流水線——HyperFrames生成動畫，Faster-Whisper轉字幕，FFmpeg合併輸出。
差異：Remotion（React派）要付費許可證，HyperFrames（HTML派）完全開源免構建，更適合AI時代。
啟發：拍片門檻由「識唔識用剪輯軟件」變咗「識唔識串連工具」。
可行動點：安裝FFmpeg、Faster-Whisper同HyperFrames，跟住步驟由文案開始逐個做。

值得記低

連結 github.com

FFmpeg GitHub

視頻處理祖師爺，支援剪接、轉格式、抽音軌等基本操作。

連結 github.com

Faster-Whisper GitHub

OpenAI Whisper加速版，快4倍，支援int8量化，顯存需求低。

連結 github.com

HyperFrames GitHub

HeyGen開源嘅HTML動畫框架，用GSAP寫動畫，零構建，Apache 2.0許可證。

連結 remotion.pro

Remotion License

Remotion許可證詳情，公司年營收超$1.5M或員工多過3人要付費。

整理重點

FFmpeg：視頻處理嘅地基工具

FFmpeg係嗰啲做視頻必備嘅基礎工具，就好似做AI一定要識Python咁。佢可以做到剪片段、轉GIF、分離音軌呢啲基本操作，而且速度好快。YouTube、Netflix甚至你手機嘅剪輯軟件底層都用緊佢。

核心能力包括截取片段（精準到幀）、將10秒視頻轉GIF（唔使1秒）、提取無損音頻

坑1：用 -c copy 截取可能唔準，建議將 -ss 放喺 -i 之前。
坑2：GIF體積大，用 -vf "fps=10,scale=320:-1" 限制幀率同尺寸，體積可以降到2MB。

安裝方式 bash

# macOS
brew install ffmpeg
# Ubuntu/Debian
sudo apt install ffmpeg
# Windows（推薦用scoop）
scoop install ffmpeg

整理重點

Faster-Whisper：語音轉字幕嘅16倍加速器

打字幕係拍片最痛苦嘅環節，以前要聽一句打一句，校對好耐。Faster-Whisper比OpenAI Whisper快4倍，而且用int8量化嘅話，顯存佔用可以減到一半。作者用RTX 3060測試，一段5分鐘嘅音頻，23秒就出到.srt字幕文件。

官方Benchmark顯示，int8量化模式下，13分鐘音頻只需59秒，顯存佔用2926MB

GPU推理代碼（int8量化） python

from faster_whisper import WhisperModel
model = WhisperModel("large-v2", device="cuda", compute_type="int8_float16")
segments, info = model.transcribe("audio.mp3")
for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

另外要注意Python版本要>=3.9，如果係3.8，建議用conda開獨立環境。安裝方法就係 pip install faster-whisper，GPU加速需要CUDA 12同cuDNN 9。

整理重點

Remotion vs HyperFrames：代碼寫視頻嘅兩種路線

呢兩個項目都係用代碼嚟寫視頻，但路線完全唔同。Remotion係React派，佢嘅理念係每一幀都係一個React組件，好處係可以複用React生態，但佢唔係真正開源，公司營收超過$1.5M就要比錢。

HyperFrames係HeyGen開源嘅HTML派，直接用HTML+GSAP寫動畫，唔使打包，Apache 2.0許可證，商業用都冇限制

HyperFrames安裝好簡單：npx hyperframes init my-video，然後 npx hyperframes preview 即刻預覽，npx hyperframes render 就出MP4。不過要注意需要Node.js >=22，而且暫時只支援單機渲染。

整理重點

三件套組合：5分鐘出片嘅完整流程

作者將呢三個工具串成一條流水線：先用AI加HyperFrames生成視頻骨架，再用Faster-Whisper將配音轉成字幕，最後用FFmpeg合併輸出。

1 Step 1：用 npx skills add heygen-com/hyperframes 安裝HyperFrames skills，然後喺Claude Code或者Cursor度叫AI幫手寫一個產品介紹視頻，AI會自動生成index.html同DESIGN.md。
2 Step 2：將配音文件用Faster-Whisper轉成字幕：python transcribe.py narration.mp3，輸出narration.srt。
3 Step 3：用FFmpeg合併視頻、音頻同字幕：ffmpeg -i video.mp4 -i narration.mp3 -i narration.srt -vf "subtitles=narration.srt:force_style='Fontsize=24'" -c:v libx264 -c:a aac output.mp4。

實測時間：構思文案3分鐘，AI生成動畫2分鐘，字幕生成30秒，渲染導出15分鐘（可以背景執行）

作者話，以前拍片嘅門檻係識唔識用剪輯軟件，而家變成識唔識得將工具串埋一齊。只要善用呢啲工具，就算視覺感差嘅人都可以做出信息密度高嘅靚片。

做咗自媒體兩年，我一直有個心病——唔識做視頻。

見到人哋短視頻爆款一個接一個，我都想入局。但一諗到要學PR、拉時間軸、調關鍵幀，我個頭就開始痛。仲慘嘅係，我嘅視覺效果差到離曬譜冇AI幫我排版，整嘅圖簡直冇眼睇。

直到上個星期，我測試咗一套開源嘅「AI視頻流水線」——用3個GitHub項目串埋一齊5分鐘構思，20分鐘渲染，一條似樣嘅視頻就出咗嚟。

今日將呢套工具完整分享出嚟，附上詳細安裝教學。

01 FFmpeg：視頻處理嘅「祖師爺」

GitHub：60,208 Stars | https://github.com/FFmpeg/FFmpeg

如果你做視頻唔知FFmpeg，就好似做AI唔知Python咁。

佢係成個視頻技術棧嘅地基——剪、拼、轉，乜都做到YouTube、Netflix、你手機裏便嘅剪輯軟件，底層都喺用佢。

核心能力

功能	命令示例	實測效果
截取片段	`ffmpeg -i input.mp4 -ss 00:00:10 -t 00:00:30 -c copy output.mp4`	精準到幀，秒級完成
視頻→GIF	`ffmpeg -i input.mp4 -vf "fps=10,scale=320:-1" output.gif`	10秒視頻轉GIF，唔使1秒
分離音軌	`ffmpeg -i input.mp4 -vn -acodec copy audio.aac`	提取無損音頻

中伏經驗

坑1：直接用-c copy截取，關鍵幀可能唔準

解決方法：將 -ss 放喺輸入參數前面（例如 ffmpeg -ss 10 -i input.mp4），由最近嘅關鍵幀開始截取。如果精度要求高，就唔好用 -c copy，等FFmpeg重新編碼。

坑2：GIF體積爆炸

一個10秒嘅GIF可以去到50MB。解決方法：加 -vf "fps=10,scale=320:-1"，限制幀率同尺寸，體積即時降到2MB以內。

安裝方式

# macOS
brew install ffmpeg

# Ubuntu/Debian
sudo apt install ffmpeg

# Windows（推薦用scoop）
scoop install ffmpeg

02 Faster-Whisper：語音轉字幕嘅「16倍加速器」

GitHub：22,964 Stars | https://github.com/SYSTRAN/faster-whisper

做視頻最痛苦嘅環節係乜嘢？打字幕。

以前一個3分鐘嘅視頻，我要聽一句打一句，校對成個鐘。Faster-Whisper 解決咗呢個問題——佢係OpenAI Whisper嘅加速版，快4倍，內存佔用更少。

核心能力

官方Benchmark數據（13分鐘音頻，Large-v2模型）：

實現方式	精度	耗時	顯存佔用
OpenAI Whisper	fp16	2m23s	4708MB
Faster-Whisper	fp16	1m03s	4525MB
Faster-Whisper (int8)	int8	59s	2926MB

實測：我嘅RTX 3060顯示卡，一段5分鐘嘅音頻，用 int8 量化模式，23秒出到有時軸嘅 .srt 字幕檔。

中伏經驗

坑1：GPU推理報錯 CUDA out of memory

解決方法：用 int8 量化，顯存佔用減半，速度反而仲快：

from faster_whisper import WhisperModel

model = WhisperModel("large-v2", device="cuda", compute_type="int8_float16")
segments, info = model.transcribe("audio.mp3")

for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

坑2：Python版本衝突

要求 Python 3.9+，如果你係統係3.8，建議用 conda 建立獨立環境：

conda create -n whisper python=3.10
conda activate whisper
pip install faster-whisper

安裝方式

pip install faster-whisper

# GPU加速需要CUDA 12 + cuDNN 9
# 詳細安裝見：https://github.com/SYSTRAN/faster-whisper#requirements

03 Remotion vs HyperFrames：用代碼寫視頻，兩種流派

呢兩個項目都係「用代碼寫視頻」嘅代表作，但路線完全唔同。

Remotion：React派嘅王者

GitHub：47,149 Stars | https://github.com/remotion-dev/remotion

Remotion 嘅核心理念：視頻裏便嘅每一幀，都係一個 React 組件。

export const MyVideo = () => {
  const frame = useCurrentFrame();
  const opacity = frame / 30;  // 30幀內逐漸顯現

  return <div style={{ opacity }}>Hello World</div>;
};

優點：

• React生態複用（組件、hooks、狀態管理）
• 強類型支援（TypeScript）
• 成熟嘅生產級方案（Lambda分佈式渲染）

踩坑：

• 許可證陷阱：Remotion 係 source-available，唔係 open source。公司年營收超過 $1.5M 或員工超過3人，需要付費license（詳見 Remotion License^[1]）
• 需要打包構建，調試時熱更新比較慢

安裝：

npx create-video@latest

HyperFrames：HTML派嘅黑馬

GitHub：19,011 Stars | https://github.com/heygen-com/hyperframes

HyperFrames 係 HeyGen 開源嘅，核心理念：直接寫 HTML + GSAP，唔使打包。

<div id="stage" data-composition-id="my-video" data-width="1920" data-height="1080">
  <div id="title" data-start="0" data-duration="5" data-track-index="0">
    Hello World
  </div>
</div>

優點：

• Apache 2.0 完全開源，冇商業限制
• 零構建，HTML直接預覽
• AI友好：ChatGPT/Claude 都會寫 HTML

踩坑：

• 需要 Node.js >= 22
• 目前只支援單機渲染，分佈式渲染仲喺開發中

安裝：

npx hyperframes init my-video
cd my-video
npx hyperframes preview  # 瀏覽器實時預覽
npx hyperframes render   # 渲染為MP4

04 三件套組合：5分鐘出片嘅完整流程

我將呢三個工具串成一條流水線：

文案/素材 → HyperFrames生成動畫 → Faster-Whisper生成字幕 → FFmpeg合併輸出

Step 1：用 AI + HyperFrames 生成視頻骨架

# 安裝 HyperFrames skills（讓AI懂怎麼寫）
npx skills add heygen-com/hyperframes

# 然後在 Claude Code / Cursor 裏說：
# "用 /hyperframes 幫我做一個10秒的產品介紹視頻，包含淡入標題和背景音樂"

AI 會自動生成 index.html + DESIGN.md（樣式規範）。

Step 2：生成字幕

將你嘅配音文件掉畀 Faster-Whisper：

python transcribe.py narration.mp3
# 輸出：narration.srt

Step 3：FFmpeg 合併輸出

ffmpeg -i video.mp4 -i narration.mp3 -i narration.srt \
  -vf "subtitles=narration.srt:force_style='Fontsize=24'" \
  -c:v libx264 -c:a aac output.mp4

實測時間線：

• 構思文案：3分鐘
• AI生成動畫：2分鐘
• 字幕生成：30秒
• 渲染導出：15分鐘（背景運行，可以偷懶）

最後嘅話

以前做視頻嘅門檻係「你識唔識用剪輯軟件」，而家嘅門檻係「你識唔識將工具串起嚟」。

FFmpeg（60k Stars）+ Faster-Whisper（23k Stars）+ HyperFrames（19k Stars）呢三駕馬車套上AI嘅引擎，就算係好似我咁視覺感極差嘅人，都做得岀信息密度高、視覺效果勁靚嘅視頻。

呢個世界正在獎勵啲善於用工具表達自己嘅人。

🔥 完整配置包已經整理好，包含：

• HyperFrames 項目模板
• Faster-Whisper 字幕生成腳本
• FFmpeg 常用命令速查表

加微信 AI55416951 加入 OPC AI編程實戰羣，備註「視頻流水線」，獲取完整配置包。

引用連結

[1] Remotion License: https://www.remotion.pro/license

做自媒體兩年，我一直有個心病——不會做視頻。

看着別人短視頻爆款一個接一個，我也想入局。但一想到要學PR、拉時間軸、調關鍵幀，我的頭就開始疼。更慘的是，我的視覺感差到離譜，沒有AI幫我排版，做的圖簡直沒法看。

直到上週，我測試了一套開源的"AI視頻流水線"——用3個GitHub項目串起來，5分鐘構思，20分鐘渲染，一條像樣的視頻就出來了。

今天把這套工具完整分享出來，附詳細安裝教程。

01 FFmpeg：視頻處理的"祖師爺"

GitHub：60,208 Stars | https://github.com/FFmpeg/FFmpeg

如果你做視頻不知道FFmpeg，就像做AI不知道Python。

它是整個視頻技術棧的地基——切、拼、轉，無所不能。YouTube、Netflix、你手機裏的剪輯軟件，底層都在用它。

核心能力

功能	命令示例	實測效果
截取片段	`ffmpeg -i input.mp4 -ss 00:00:10 -t 00:00:30 -c copy output.mp4`	精準到幀，秒級完成
視頻→GIF	`ffmpeg -i input.mp4 -vf "fps=10,scale=320:-1" output.gif`	10秒視頻轉GIF，不到1秒
分離音軌	`ffmpeg -i input.mp4 -vn -acodec copy audio.aac`	提取無損音頻

踩坑經驗

坑1：直接用-c copy截取，關鍵幀可能不準

解決方案：把 -ss 放到輸入參數前（如 ffmpeg -ss 10 -i input.mp4），從最近關鍵幀開始截取。如果精度要求高，去掉 -c copy，讓FFmpeg重新編碼。

坑2：GIF體積爆炸

一個10秒的GIF能到50MB。解決方案：加 -vf "fps=10,scale=320:-1"，限制幀率和尺寸，體積瞬間降到2MB以內。

安裝方式

# macOS
brew install ffmpeg

# Ubuntu/Debian
sudo apt install ffmpeg

# Windows（推薦用scoop）
scoop install ffmpeg

02 Faster-Whisper：語音轉字幕的"16倍加速器"

GitHub：22,964 Stars | https://github.com/SYSTRAN/faster-whisper

做視頻最痛苦的環節是什麼？打字幕。

以前一個3分鐘的視頻，我要聽一句打一句，校對1小時。Faster-Whisper 解決了這個問題——它是OpenAI Whisper的加速版，快4倍，內存佔用更少。

核心能力

官方Benchmark數據（13分鐘音頻，Large-v2模型）：

實現方式	精度	耗時	顯存佔用
OpenAI Whisper	fp16	2m23s	4708MB
Faster-Whisper	fp16	1m03s	4525MB
Faster-Whisper (int8)	int8	59s	2926MB

實測：我的RTX 3060顯卡，一段5分鐘的音頻，用 int8 量化模式，23秒出帶時間軸的 .srt 字幕文件。

踩坑經驗

坑1：GPU推理報錯 CUDA out of memory

解決方案：用 int8 量化，顯存佔用減半，速度反而更快：

from faster_whisper import WhisperModel

model = WhisperModel("large-v2", device="cuda", compute_type="int8_float16")
segments, info = model.transcribe("audio.mp3")

for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

坑2：Python版本衝突

要求 Python 3.9+，如果你係統是 3.8，建議用 conda 創建獨立環境：

conda create -n whisper python=3.10
conda activate whisper
pip install faster-whisper

安裝方式

pip install faster-whisper

# GPU加速需要CUDA 12 + cuDNN 9
# 詳細安裝見：https://github.com/SYSTRAN/faster-whisper#requirements

03 Remotion vs HyperFrames：代碼寫視頻，兩種流派

這兩個項目都是"用代碼寫視頻"的代表作，但路線完全不同。

Remotion：React派的王者

GitHub：47,149 Stars | https://github.com/remotion-dev/remotion

Remotion 的核心理念：視頻裏的每一幀，都是一個 React 組件。

export const MyVideo = () => {
  const frame = useCurrentFrame();
  const opacity = frame / 30;  // 30幀內逐漸顯現

  return <div style={{ opacity }}>Hello World</div>;
};

優點：

• React生態複用（組件、hooks、狀態管理）
• 強類型支持（TypeScript）
• 成熟的生產級方案（Lambda分佈式渲染）

踩坑：

• 許可證陷阱：Remotion 是 source-available，不是 open source。公司年營收超過 $1.5M 或員工超過3人，需要付費license（詳見 Remotion License^[1]）
• 需要打包構建，調試時熱更新較慢

安裝：

npx create-video@latest

HyperFrames：HTML派的黑馬

GitHub：19,011 Stars | https://github.com/heygen-com/hyperframes

HyperFrames 是 HeyGen 開源的，核心理念：直接寫 HTML + GSAP，無需打包。

<div id="stage" data-composition-id="my-video" data-width="1920" data-height="1080">
  <div id="title" data-start="0" data-duration="5" data-track-index="0">
    Hello World
  </div>
</div>

優點：

• Apache 2.0 完全開源，無商業限制
• 零構建，HTML直接預覽
• AI友好：ChatGPT/Claude 都會寫 HTML

踩坑：

• 需要 Node.js >= 22
• 目前只支持單機渲染，分佈式渲染還在開發中

安裝：

npx hyperframes init my-video
cd my-video
npx hyperframes preview  # 瀏覽器實時預覽
npx hyperframes render   # 渲染為MP4

04 三件套組合：5分鐘出片的完整流程

我把這三個工具串成了一條流水線：

文案/素材 → HyperFrames生成動畫 → Faster-Whisper生成字幕 → FFmpeg合併輸出

Step 1：用 AI + HyperFrames 生成視頻骨架

# 安裝 HyperFrames skills（讓AI懂怎麼寫）
npx skills add heygen-com/hyperframes

# 然後在 Claude Code / Cursor 裏說：
# "用 /hyperframes 幫我做一個10秒的產品介紹視頻，包含淡入標題和背景音樂"

AI 會自動生成 index.html + DESIGN.md（樣式規範）。

Step 2：生成字幕

把你的配音文件丟給 Faster-Whisper：

python transcribe.py narration.mp3
# 輸出：narration.srt

Step 3：FFmpeg 合併輸出

ffmpeg -i video.mp4 -i narration.mp3 -i narration.srt \
  -vf "subtitles=narration.srt:force_style='Fontsize=24'" \
  -c:v libx264 -c:a aac output.mp4

實測時間線：

• 構思文案：3分鐘
• AI生成動畫：2分鐘
• 字幕生成：30秒
• 渲染導出：15分鐘（後台運行，可以摸魚）

最後的話

以前做視頻的門檻是"你會不會用剪輯軟件"，現在的門檻是"你會不會把工具串起來"。

FFmpeg（60k Stars）+ Faster-Whisper（23k Stars）+ HyperFrames（19k Stars），這三駕馬車套上AI的引擎，即使像我這樣視覺感極差的人，也能做出信息密度高、視覺效果酷炫的視頻。

這個世界正在獎勵那些善於用工具表達自己的人。

🔥 完整配置包已整理好，包含：

• HyperFrames 項目模板
• Faster-Whisper 字幕生成腳本
• FFmpeg 常用命令速查表

添加微信 AI55416951 加入 OPC AI編程實戰羣，備註"視頻流水線"，獲取完整配置包。

引用連結

[1] Remotion License: https://www.remotion.pro/license