不會剪輯也能5分鐘出片?FFmpeg+Faster-Whisper+HyperFrames剪輯,附詳細安裝使用教程

作者:AI科技驛站
日期:2026年5月20日 上午12:38
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

FFmpegFaster-WhisperHyperFrames三件套,就算唔識剪片都做到5分鐘出片

整理版摘要

作者係一個做咗兩年自媒體嘅人,一直唔識拍片,覺得PR、時間軸呢啲嘢好難學,視覺感又差,所以遲遲冇入局短視頻。直到佢試咗一套由三個GitHub開源項目串成嘅「AI視頻流水線」,先發現原來唔使學剪輯軟件,只要識得將工具組合埋一齊,就可以快速出片。佢今次分享嘅核心結論係:FFmpegFaster-Whisper同HyperFrames呢三套工具加埋AI,可以幫你喺5分鐘構思、20分鐘渲染出一條似樣嘅視頻。

FFmpeg係視頻處理嘅基礎工具,負責剪接、轉格式;Faster-WhisperOpenAI Whisper嘅加速版,可以快速將語音轉成字幕;HyperFrames就係用HTML寫動畫嘅框架,完全開源,唔使打包,仲可以同AI配合使用。作者將佢哋串成一條流水線:先用AI幫手寫HyperFrames嘅動畫模板,再用Faster-Whisper生成字幕,最後用FFmpeg合併輸出。佢話實際用起嚟,成個過程由諗文案到出片,大約只需20分鐘。

以前拍片嘅門檻係你識唔識用剪輯軟件,而家嘅門檻變成你識唔識得將工具串埋一齊。作者覺得呢個世界正獎勵啲善用工具表達自己嘅人,所以佢將成套配置包整理好,包括HyperFrames項目模板、字幕腳本同FFmpeg常用命令速查表,只要加微信就可以攞到。

  • 結論:用AI加開源工具,就算冇剪片經驗都可以快得出片。
  • 方法:三件套流水線——HyperFrames生成動畫,Faster-Whisper轉字幕,FFmpeg合併輸出。
  • 差異RemotionReact派)要付費許可證,HyperFrames(HTML派)完全開源免構建,更適合AI時代。
  • 啟發:拍片門檻由「識唔識用剪輯軟件」變咗「識唔識串連工具」。
  • 可行動點:安裝FFmpegFaster-WhisperHyperFrames,跟住步驟由文案開始逐個做。
值得記低
連結 github.com

FFmpeg GitHub

視頻處理祖師爺,支援剪接、轉格式、抽音軌等基本操作。

連結 github.com

Faster-Whisper GitHub

OpenAI Whisper加速版,快4倍,支援int8量化,顯存需求低。

連結 github.com

HyperFrames GitHub

HeyGen開源嘅HTML動畫框架,用GSAP寫動畫,零構建,Apache 2.0許可證。

連結 remotion.pro

Remotion License

Remotion許可證詳情,公司年營收超$1.5M或員工多過3人要付費。

整理重點

FFmpeg:視頻處理嘅地基工具

FFmpeg係嗰啲做視頻必備嘅基礎工具,就好似做AI一定要識Python咁。佢可以做到剪片段、轉GIF、分離音軌呢啲基本操作,而且速度好快。YouTube、Netflix甚至你手機嘅剪輯軟件底層都用緊佢。

核心能力包括截取片段(精準到幀)、將10秒視頻轉GIF(唔使1秒)、提取無損音頻

  • 坑1:用 -c copy 截取可能唔準,建議將 -ss 放喺 -i 之前。
  • 坑2GIF體積大,用 -vf "fps=10,scale=320:-1" 限制幀率同尺寸,體積可以降到2MB。
安裝方式 bash
# macOS
brew install ffmpeg
# Ubuntu/Debian
sudo apt install ffmpeg
# Windows(推薦用scoop)
scoop install ffmpeg
整理重點

Faster-Whisper:語音轉字幕嘅16倍加速器

打字幕係拍片最痛苦嘅環節,以前要聽一句打一句,校對好耐。Faster-WhisperOpenAI Whisper快4倍,而且用int8量化嘅話,顯存佔用可以減到一半。作者用RTX 3060測試,一段5分鐘嘅音頻,23秒就出到.srt字幕文件。

官方Benchmark顯示,int8量化模式下,13分鐘音頻只需59秒,顯存佔用2926MB

GPU推理代碼(int8量化) python
from faster_whisper import WhisperModel
model = WhisperModel("large-v2", device="cuda", compute_type="int8_float16")
segments, info = model.transcribe("audio.mp3")
for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

另外要注意Python版本要>=3.9,如果係3.8,建議用conda開獨立環境。安裝方法就係 pip install faster-whisper,GPU加速需要CUDA 12同cuDNN 9。

整理重點

Remotion vs HyperFrames:代碼寫視頻嘅兩種路線

呢兩個項目都係用代碼嚟寫視頻,但路線完全唔同。RemotionReact派,佢嘅理念係每一幀都係一個React組件,好處係可以複用React生態,但佢唔係真正開源,公司營收超過$1.5M就要比錢。

HyperFramesHeyGen開源嘅HTML派,直接用HTML+GSAP寫動畫,唔使打包,Apache 2.0許可證,商業用都冇限制

HyperFrames安裝好簡單:npx hyperframes init my-video,然後 npx hyperframes preview 即刻預覽,npx hyperframes render 就出MP4。不過要注意需要Node.js >=22,而且暫時只支援單機渲染。

整理重點

三件套組合:5分鐘出片嘅完整流程

作者將呢三個工具串成一條流水線:先用AI加HyperFrames生成視頻骨架,再用Faster-Whisper將配音轉成字幕,最後用FFmpeg合併輸出。

  1. 1 Step 1:用 npx skills add heygen-com/hyperframes 安裝HyperFrames skills,然後喺Claude Code或者Cursor度叫AI幫手寫一個產品介紹視頻,AI會自動生成index.html同DESIGN.md。
  2. 2 Step 2:將配音文件用Faster-Whisper轉成字幕:python transcribe.py narration.mp3,輸出narration.srt。
  3. 3 Step 3:用FFmpeg合併視頻、音頻同字幕:ffmpeg -i video.mp4 -i narration.mp3 -i narration.srt -vf "subtitles=narration.srt:force_style='Fontsize=24'" -c:v libx264 -c:a aac output.mp4。

實測時間:構思文案3分鐘,AI生成動畫2分鐘,字幕生成30秒,渲染導出15分鐘(可以背景執行)

作者話,以前拍片嘅門檻係識唔識用剪輯軟件,而家變成識唔識得將工具串埋一齊。只要善用呢啲工具,就算視覺感差嘅人都可以做出信息密度高嘅靚片。

做咗自媒體兩年,我一直有個心病——唔識做視頻。

見到人哋短視頻爆款一個接一個,我都想入局。但一諗到要學PR、拉時間軸、調關鍵幀,我個頭就開始痛。仲慘嘅係,我嘅視覺效果差到離曬譜冇AI幫我排版,整嘅圖簡直冇眼睇。

直到上個星期,我測試咗一套開源嘅「AI視頻流水線」——用3個GitHub項目串埋一齊5分鐘構思,20分鐘渲染,一條似樣嘅視頻就出咗嚟。

今日將呢套工具完整分享出嚟,附上詳細安裝教學


01 FFmpeg:視頻處理嘅「祖師爺」

GitHub:60,208 Stars | https://github.com/FFmpeg/FFmpeg

如果你做視頻唔知FFmpeg,就好似做AI唔知Python咁。

佢係成個視頻技術棧嘅地基——剪、拼、轉,乜都做到YouTube、Netflix、你手機裏便嘅剪輯軟件,底層都喺用佢。

核心能力

       
                                           
功能命令示例實測效果
截取片段ffmpeg -i input.mp4 -ss 00:00:10 -t 00:00:30 -c copy output.mp4精準到幀,秒級完成
視頻→GIFffmpeg -i input.mp4 -vf "fps=10,scale=320:-1" output.gif10秒視頻轉GIF,唔使1秒
分離音軌ffmpeg -i input.mp4 -vn -acodec copy audio.aac提取無損音頻
       
     

中伏經驗

坑1:直接用-c copy截取,關鍵幀可能唔準

解決方法:將 -ss 放喺輸入參數前面(例如 ffmpeg -ss 10 -i input.mp4),由最近嘅關鍵幀開始截取。如果精度要求高,就唔好用 -c copy,等FFmpeg重新編碼。

坑2:GIF體積爆炸

一個10秒嘅GIF可以去到50MB。解決方法:加 -vf "fps=10,scale=320:-1",限制幀率同尺寸,體積即時降到2MB以內。

安裝方式


    
    
    
  # macOS
brew install ffmpeg

# Ubuntu/Debian

sudo
 apt install ffmpeg

# Windows(推薦用scoop)

scoop install ffmpeg

02 Faster-Whisper:語音轉字幕嘅「16倍加速器」

GitHub:22,964 Stars | https://github.com/SYSTRAN/faster-whisper

做視頻最痛苦嘅環節係乜嘢?打字幕

以前一個3分鐘嘅視頻,我要聽一句打一句,校對成個鐘。Faster-Whisper 解決咗呢個問題——佢係OpenAI Whisper嘅加速版,快4倍,內存佔用更少

核心能力

官方Benchmark數據(13分鐘音頻,Large-v2模型):

       
                                           
實現方式精度耗時顯存佔用
OpenAI Whisperfp162m23s4708MB
Faster-Whisperfp161m03s4525MB
Faster-Whisper (int8)int859s2926MB
       
     

實測:我嘅RTX 3060顯示卡,一段5分鐘嘅音頻,用 int8 量化模式,23秒出到有時軸嘅 .srt 字幕檔。

中伏經驗

坑1:GPU推理報錯 CUDA out of memory

解決方法:用 int8 量化,顯存佔用減半,速度反而仲快:


    
    
    
  from faster_whisper import WhisperModel

model = WhisperModel("large-v2", device="cuda", compute_type="int8_float16")
segments, info = model.transcribe("audio.mp3")

for
 segment in segments:
    print
("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

坑2:Python版本衝突

要求 Python 3.9+,如果你係統係3.8,建議用 conda 建立獨立環境:


    
    
    
  conda create -n whisper python=3.10
conda activate whisper
pip install faster-whisper

安裝方式


    
    
    
  pip install faster-whisper

# GPU加速需要CUDA 12 + cuDNN 9

# 詳細安裝見:https://github.com/SYSTRAN/faster-whisper#requirements

03 Remotion vs HyperFrames:用代碼寫視頻,兩種流派

呢兩個項目都係「用代碼寫視頻」嘅代表作,但路線完全唔同。

Remotion:React派嘅王者

GitHub:47,149 Stars | https://github.com/remotion-dev/remotion

Remotion 嘅核心理念:視頻裏便嘅每一幀,都係一個 React 組件


    
    
    
  export const MyVideo = () => {
  const
 frame = useCurrentFrame();
  const
 opacity = frame / 30;  // 30幀內逐漸顯現

  return
 <div style={{ opacity }}>Hello World</div>;
};

優點

  • • React生態複用(組件、hooks、狀態管理)
  • • 強類型支援(TypeScript)
  • • 成熟嘅生產級方案(Lambda分佈式渲染)

踩坑

  • 許可證陷阱:Remotion 係 source-available,唔係 open source。公司年營收超過 $1.5M 或員工超過3人,需要付費license(詳見 Remotion License[1]
  • • 需要打包構建,調試時熱更新比較慢

安裝


    
    
    
  npx create-video@latest

HyperFrames:HTML派嘅黑馬

GitHub:19,011 Stars | https://github.com/heygen-com/hyperframes

HyperFrames 係 HeyGen 開源嘅,核心理念:直接寫 HTML + GSAP,唔使打包


    
    
    
  <div id="stage" data-composition-id="my-video" data-width="1920" data-height="1080">
  <div id="title" data-start="0" data-duration="5" data-track-index="0">

    Hello World
  </div>

</div>

優點

  • Apache 2.0 完全開源,冇商業限制
  • • 零構建,HTML直接預覽
  • • AI友好:ChatGPT/Claude 都會寫 HTML

踩坑

  • • 需要 Node.js >= 22
  • • 目前只支援單機渲染,分佈式渲染仲喺開發中

安裝


    
    
    
  npx hyperframes init my-video
cd
 my-video
npx hyperframes preview  # 瀏覽器實時預覽
npx hyperframes render   # 渲染為MP4

04 三件套組合:5分鐘出片嘅完整流程

我將呢三個工具串成一條流水線:


    
    
    
  文案/素材 → HyperFrames生成動畫 → Faster-Whisper生成字幕 → FFmpeg合併輸出

Step 1:用 AI + HyperFrames 生成視頻骨架


    
    
    
  # 安裝 HyperFrames skills(讓AI懂怎麼寫)
npx skills add heygen-com/hyperframes

# 然後在 Claude Code / Cursor 裏說:

# "用 /hyperframes 幫我做一個10秒的產品介紹視頻,包含淡入標題和背景音樂"

AI 會自動生成 index.html + DESIGN.md(樣式規範)。

Step 2:生成字幕

將你嘅配音文件掉畀 Faster-Whisper:


    
    
    
  python transcribe.py narration.mp3
# 輸出:narration.srt

Step 3:FFmpeg 合併輸出


    
    
    
  ffmpeg -i video.mp4 -i narration.mp3 -i narration.srt \
  -vf "subtitles=narration.srt:force_style='Fontsize=24'" \
  -c:v libx264 -c:a aac output.mp4

實測時間線

  • • 構思文案:3分鐘
  • • AI生成動畫:2分鐘
  • • 字幕生成:30秒
  • • 渲染導出:15分鐘(背景運行,可以偷懶)

最後嘅話

以前做視頻嘅門檻係「你識唔識用剪輯軟件」,而家嘅門檻係「你識唔識將工具串起嚟」。

FFmpeg(60k Stars)+ Faster-Whisper(23k Stars)+ HyperFrames(19k Stars)呢三駕馬車套上AI嘅引擎,就算係好似我咁視覺感極差嘅人,都做得岀信息密度高、視覺效果勁靚嘅視頻。

呢個世界正在獎勵啲善於用工具表達自己嘅人


🔥 完整配置包已經整理好,包含:

  • • HyperFrames 項目模板
  • • Faster-Whisper 字幕生成腳本
  • • FFmpeg 常用命令速查表

加微信 AI55416951 加入 OPC AI編程實戰羣,備註「視頻流水線」,獲取完整配置包。

引用連結

[1] Remotion License: https://www.remotion.pro/license

                 

做自媒體兩年,我一直有個心病——不會做視頻。

看着別人短視頻爆款一個接一個,我也想入局。但一想到要學PR、拉時間軸、調關鍵幀,我的頭就開始疼。更慘的是,我的視覺感差到離譜,沒有AI幫我排版,做的圖簡直沒法看。

直到上週,我測試了一套開源的"AI視頻流水線"——用3個GitHub項目串起來,5分鐘構思,20分鐘渲染,一條像樣的視頻就出來了。

今天把這套工具完整分享出來,附詳細安裝教程


01 FFmpeg:視頻處理的"祖師爺"

GitHub:60,208 Stars | https://github.com/FFmpeg/FFmpeg

如果你做視頻不知道FFmpeg,就像做AI不知道Python。

它是整個視頻技術棧的地基——切、拼、轉,無所不能。YouTube、Netflix、你手機裏的剪輯軟件,底層都在用它。

核心能力

       
                                           
功能命令示例實測效果
截取片段ffmpeg -i input.mp4 -ss 00:00:10 -t 00:00:30 -c copy output.mp4精準到幀,秒級完成
視頻→GIFffmpeg -i input.mp4 -vf "fps=10,scale=320:-1" output.gif10秒視頻轉GIF,不到1秒
分離音軌ffmpeg -i input.mp4 -vn -acodec copy audio.aac提取無損音頻
       
     

踩坑經驗

坑1:直接用-c copy截取,關鍵幀可能不準

解決方案:把 -ss 放到輸入參數前(如 ffmpeg -ss 10 -i input.mp4),從最近關鍵幀開始截取。如果精度要求高,去掉 -c copy,讓FFmpeg重新編碼。

坑2:GIF體積爆炸

一個10秒的GIF能到50MB。解決方案:加 -vf "fps=10,scale=320:-1",限制幀率和尺寸,體積瞬間降到2MB以內。

安裝方式


    
    
    
  # macOS
brew install ffmpeg

# Ubuntu/Debian

sudo
 apt install ffmpeg

# Windows(推薦用scoop)

scoop install ffmpeg

02 Faster-Whisper:語音轉字幕的"16倍加速器"

GitHub:22,964 Stars | https://github.com/SYSTRAN/faster-whisper

做視頻最痛苦的環節是什麼?打字幕

以前一個3分鐘的視頻,我要聽一句打一句,校對1小時。Faster-Whisper 解決了這個問題——它是OpenAI Whisper的加速版,快4倍,內存佔用更少

核心能力

官方Benchmark數據(13分鐘音頻,Large-v2模型):

       
                                           
實現方式精度耗時顯存佔用
OpenAI Whisperfp162m23s4708MB
Faster-Whisperfp161m03s4525MB
Faster-Whisper (int8)int859s2926MB
       
     

實測:我的RTX 3060顯卡,一段5分鐘的音頻,用 int8 量化模式,23秒出帶時間軸的 .srt 字幕文件。

踩坑經驗

坑1:GPU推理報錯 CUDA out of memory

解決方案:用 int8 量化,顯存佔用減半,速度反而更快:


    
    
    
  from faster_whisper import WhisperModel

model = WhisperModel("large-v2", device="cuda", compute_type="int8_float16")
segments, info = model.transcribe("audio.mp3")

for
 segment in segments:
    print
("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

坑2:Python版本衝突

要求 Python 3.9+,如果你係統是 3.8,建議用 conda 創建獨立環境:


    
    
    
  conda create -n whisper python=3.10
conda activate whisper
pip install faster-whisper

安裝方式


    
    
    
  pip install faster-whisper

# GPU加速需要CUDA 12 + cuDNN 9

# 詳細安裝見:https://github.com/SYSTRAN/faster-whisper#requirements

03 Remotion vs HyperFrames:代碼寫視頻,兩種流派

這兩個項目都是"用代碼寫視頻"的代表作,但路線完全不同。

Remotion:React派的王者

GitHub:47,149 Stars | https://github.com/remotion-dev/remotion

Remotion 的核心理念:視頻裏的每一幀,都是一個 React 組件


    
    
    
  export const MyVideo = () => {
  const
 frame = useCurrentFrame();
  const
 opacity = frame / 30;  // 30幀內逐漸顯現

  return
 <div style={{ opacity }}>Hello World</div>;
};

優點

  • • React生態複用(組件、hooks、狀態管理)
  • • 強類型支持(TypeScript)
  • • 成熟的生產級方案(Lambda分佈式渲染)

踩坑

  • 許可證陷阱:Remotion 是 source-available,不是 open source。公司年營收超過 $1.5M 或員工超過3人,需要付費license(詳見 Remotion License[1]
  • • 需要打包構建,調試時熱更新較慢

安裝


    
    
    
  npx create-video@latest

HyperFrames:HTML派的黑馬

GitHub:19,011 Stars | https://github.com/heygen-com/hyperframes

HyperFrames 是 HeyGen 開源的,核心理念:直接寫 HTML + GSAP,無需打包


    
    
    
  <div id="stage" data-composition-id="my-video" data-width="1920" data-height="1080">
  <div id="title" data-start="0" data-duration="5" data-track-index="0">

    Hello World
  </div>

</div>

優點

  • Apache 2.0 完全開源,無商業限制
  • • 零構建,HTML直接預覽
  • • AI友好:ChatGPT/Claude 都會寫 HTML

踩坑

  • • 需要 Node.js >= 22
  • • 目前只支持單機渲染,分佈式渲染還在開發中

安裝


    
    
    
  npx hyperframes init my-video
cd
 my-video
npx hyperframes preview  # 瀏覽器實時預覽
npx hyperframes render   # 渲染為MP4

04 三件套組合:5分鐘出片的完整流程

我把這三個工具串成了一條流水線:


    
    
    
  文案/素材 → HyperFrames生成動畫 → Faster-Whisper生成字幕 → FFmpeg合併輸出

Step 1:用 AI + HyperFrames 生成視頻骨架


    
    
    
  # 安裝 HyperFrames skills(讓AI懂怎麼寫)
npx skills add heygen-com/hyperframes

# 然後在 Claude Code / Cursor 裏說:

# "用 /hyperframes 幫我做一個10秒的產品介紹視頻,包含淡入標題和背景音樂"

AI 會自動生成 index.html + DESIGN.md(樣式規範)。

Step 2:生成字幕

把你的配音文件丟給 Faster-Whisper:


    
    
    
  python transcribe.py narration.mp3
# 輸出:narration.srt

Step 3:FFmpeg 合併輸出


    
    
    
  ffmpeg -i video.mp4 -i narration.mp3 -i narration.srt \
  -vf "subtitles=narration.srt:force_style='Fontsize=24'" \
  -c:v libx264 -c:a aac output.mp4

實測時間線

  • • 構思文案:3分鐘
  • • AI生成動畫:2分鐘
  • • 字幕生成:30秒
  • • 渲染導出:15分鐘(後台運行,可以摸魚)

最後的話

以前做視頻的門檻是"你會不會用剪輯軟件",現在的門檻是"你會不會把工具串起來"。

FFmpeg(60k Stars)+ Faster-Whisper(23k Stars)+ HyperFrames(19k Stars),這三駕馬車套上AI的引擎,即使像我這樣視覺感極差的人,也能做出信息密度高、視覺效果酷炫的視頻。

這個世界正在獎勵那些善於用工具表達自己的人


🔥 完整配置包已整理好,包含:

  • • HyperFrames 項目模板
  • • Faster-Whisper 字幕生成腳本
  • • FFmpeg 常用命令速查表

添加微信 AI55416951 加入 OPC AI編程實戰羣,備註"視頻流水線",獲取完整配置包。

引用連結

[1] Remotion License: https://www.remotion.pro/license