不會剪輯也能5分鐘出片?FFmpeg+Faster-Whisper+HyperFrames剪輯,附詳細安裝使用教程
整理版優先睇
用FFmpeg、Faster-Whisper同HyperFrames三件套,就算唔識剪片都做到5分鐘出片
作者係一個做咗兩年自媒體嘅人,一直唔識拍片,覺得PR、時間軸呢啲嘢好難學,視覺感又差,所以遲遲冇入局短視頻。直到佢試咗一套由三個GitHub開源項目串成嘅「AI視頻流水線」,先發現原來唔使學剪輯軟件,只要識得將工具組合埋一齊,就可以快速出片。佢今次分享嘅核心結論係:FFmpeg、Faster-Whisper同HyperFrames呢三套工具加埋AI,可以幫你喺5分鐘構思、20分鐘渲染出一條似樣嘅視頻。
FFmpeg係視頻處理嘅基礎工具,負責剪接、轉格式;Faster-Whisper係OpenAI Whisper嘅加速版,可以快速將語音轉成字幕;HyperFrames就係用HTML寫動畫嘅框架,完全開源,唔使打包,仲可以同AI配合使用。作者將佢哋串成一條流水線:先用AI幫手寫HyperFrames嘅動畫模板,再用Faster-Whisper生成字幕,最後用FFmpeg合併輸出。佢話實際用起嚟,成個過程由諗文案到出片,大約只需20分鐘。
以前拍片嘅門檻係你識唔識用剪輯軟件,而家嘅門檻變成你識唔識得將工具串埋一齊。作者覺得呢個世界正獎勵啲善用工具表達自己嘅人,所以佢將成套配置包整理好,包括HyperFrames項目模板、字幕腳本同FFmpeg常用命令速查表,只要加微信就可以攞到。
- 結論:用AI加開源工具,就算冇剪片經驗都可以快得出片。
- 方法:三件套流水線——HyperFrames生成動畫,Faster-Whisper轉字幕,FFmpeg合併輸出。
- 差異:Remotion(React派)要付費許可證,HyperFrames(HTML派)完全開源免構建,更適合AI時代。
- 啟發:拍片門檻由「識唔識用剪輯軟件」變咗「識唔識串連工具」。
- 可行動點:安裝FFmpeg、Faster-Whisper同HyperFrames,跟住步驟由文案開始逐個做。
FFmpeg GitHub
視頻處理祖師爺,支援剪接、轉格式、抽音軌等基本操作。
Faster-Whisper GitHub
OpenAI Whisper加速版,快4倍,支援int8量化,顯存需求低。
HyperFrames GitHub
HeyGen開源嘅HTML動畫框架,用GSAP寫動畫,零構建,Apache 2.0許可證。
Remotion License
Remotion許可證詳情,公司年營收超$1.5M或員工多過3人要付費。
FFmpeg:視頻處理嘅地基工具
FFmpeg係嗰啲做視頻必備嘅基礎工具,就好似做AI一定要識Python咁。佢可以做到剪片段、轉GIF、分離音軌呢啲基本操作,而且速度好快。YouTube、Netflix甚至你手機嘅剪輯軟件底層都用緊佢。
核心能力包括截取片段(精準到幀)、將10秒視頻轉GIF(唔使1秒)、提取無損音頻
- 坑1:用 -c copy 截取可能唔準,建議將 -ss 放喺 -i 之前。
- 坑2:GIF體積大,用 -vf "fps=10,scale=320:-1" 限制幀率同尺寸,體積可以降到2MB。
# macOS
brew install ffmpeg
# Ubuntu/Debian
sudo apt install ffmpeg
# Windows(推薦用scoop)
scoop install ffmpeg
Faster-Whisper:語音轉字幕嘅16倍加速器
打字幕係拍片最痛苦嘅環節,以前要聽一句打一句,校對好耐。Faster-Whisper比OpenAI Whisper快4倍,而且用int8量化嘅話,顯存佔用可以減到一半。作者用RTX 3060測試,一段5分鐘嘅音頻,23秒就出到.srt字幕文件。
官方Benchmark顯示,int8量化模式下,13分鐘音頻只需59秒,顯存佔用2926MB
from faster_whisper import WhisperModel
model = WhisperModel("large-v2", device="cuda", compute_type="int8_float16")
segments, info = model.transcribe("audio.mp3")
for segment in segments:
print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
另外要注意Python版本要>=3.9,如果係3.8,建議用conda開獨立環境。安裝方法就係 pip install faster-whisper,GPU加速需要CUDA 12同cuDNN 9。
Remotion vs HyperFrames:代碼寫視頻嘅兩種路線
呢兩個項目都係用代碼嚟寫視頻,但路線完全唔同。Remotion係React派,佢嘅理念係每一幀都係一個React組件,好處係可以複用React生態,但佢唔係真正開源,公司營收超過$1.5M就要比錢。
HyperFrames係HeyGen開源嘅HTML派,直接用HTML+GSAP寫動畫,唔使打包,Apache 2.0許可證,商業用都冇限制
HyperFrames安裝好簡單:npx hyperframes init my-video,然後 npx hyperframes preview 即刻預覽,npx hyperframes render 就出MP4。不過要注意需要Node.js >=22,而且暫時只支援單機渲染。
三件套組合:5分鐘出片嘅完整流程
作者將呢三個工具串成一條流水線:先用AI加HyperFrames生成視頻骨架,再用Faster-Whisper將配音轉成字幕,最後用FFmpeg合併輸出。
- 1 Step 1:用 npx skills add heygen-com/hyperframes 安裝HyperFrames skills,然後喺Claude Code或者Cursor度叫AI幫手寫一個產品介紹視頻,AI會自動生成index.html同DESIGN.md。
- 2 Step 2:將配音文件用Faster-Whisper轉成字幕:python transcribe.py narration.mp3,輸出narration.srt。
- 3 Step 3:用FFmpeg合併視頻、音頻同字幕:ffmpeg -i video.mp4 -i narration.mp3 -i narration.srt -vf "subtitles=narration.srt:force_style='Fontsize=24'" -c:v libx264 -c:a aac output.mp4。
實測時間:構思文案3分鐘,AI生成動畫2分鐘,字幕生成30秒,渲染導出15分鐘(可以背景執行)
作者話,以前拍片嘅門檻係識唔識用剪輯軟件,而家變成識唔識得將工具串埋一齊。只要善用呢啲工具,就算視覺感差嘅人都可以做出信息密度高嘅靚片。
做咗自媒體兩年,我一直有個心病——唔識做視頻。
見到人哋短視頻爆款一個接一個,我都想入局。但一諗到要學PR、拉時間軸、調關鍵幀,我個頭就開始痛。仲慘嘅係,我嘅視覺效果差到離曬譜冇AI幫我排版,整嘅圖簡直冇眼睇。
直到上個星期,我測試咗一套開源嘅「AI視頻流水線」——用3個GitHub項目串埋一齊5分鐘構思,20分鐘渲染,一條似樣嘅視頻就出咗嚟。
今日將呢套工具完整分享出嚟,附上詳細安裝教學。
01 FFmpeg:視頻處理嘅「祖師爺」
GitHub:60,208 Stars | https://github.com/FFmpeg/FFmpeg
如果你做視頻唔知FFmpeg,就好似做AI唔知Python咁。
佢係成個視頻技術棧嘅地基——剪、拼、轉,乜都做到YouTube、Netflix、你手機裏便嘅剪輯軟件,底層都喺用佢。
核心能力
中伏經驗
坑1:直接用-c copy截取,關鍵幀可能唔準
解決方法:將 -ss 放喺輸入參數前面(例如 ffmpeg -ss 10 -i input.mp4),由最近嘅關鍵幀開始截取。如果精度要求高,就唔好用 -c copy,等FFmpeg重新編碼。
坑2:GIF體積爆炸
一個10秒嘅GIF可以去到50MB。解決方法:加 -vf "fps=10,scale=320:-1",限制幀率同尺寸,體積即時降到2MB以內。
安裝方式
# macOS
brew install ffmpeg
# Ubuntu/Debian
sudo apt install ffmpeg
# Windows(推薦用scoop)
scoop install ffmpeg02 Faster-Whisper:語音轉字幕嘅「16倍加速器」
GitHub:22,964 Stars | https://github.com/SYSTRAN/faster-whisper
做視頻最痛苦嘅環節係乜嘢?打字幕。
以前一個3分鐘嘅視頻,我要聽一句打一句,校對成個鐘。Faster-Whisper 解決咗呢個問題——佢係OpenAI Whisper嘅加速版,快4倍,內存佔用更少。
核心能力
官方Benchmark數據(13分鐘音頻,Large-v2模型):
實測:我嘅RTX 3060顯示卡,一段5分鐘嘅音頻,用 int8 量化模式,23秒出到有時軸嘅 .srt 字幕檔。
中伏經驗
坑1:GPU推理報錯 CUDA out of memory
解決方法:用 int8 量化,顯存佔用減半,速度反而仲快:
from faster_whisper import WhisperModel
model = WhisperModel("large-v2", device="cuda", compute_type="int8_float16")
segments, info = model.transcribe("audio.mp3")
for segment in segments:
print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))坑2:Python版本衝突
要求 Python 3.9+,如果你係統係3.8,建議用 conda 建立獨立環境:
conda create -n whisper python=3.10
conda activate whisper
pip install faster-whisper安裝方式
pip install faster-whisper
# GPU加速需要CUDA 12 + cuDNN 9
# 詳細安裝見:https://github.com/SYSTRAN/faster-whisper#requirements03 Remotion vs HyperFrames:用代碼寫視頻,兩種流派
呢兩個項目都係「用代碼寫視頻」嘅代表作,但路線完全唔同。
Remotion:React派嘅王者
GitHub:47,149 Stars | https://github.com/remotion-dev/remotion
Remotion 嘅核心理念:視頻裏便嘅每一幀,都係一個 React 組件。
export const MyVideo = () => {
const frame = useCurrentFrame();
const opacity = frame / 30; // 30幀內逐漸顯現
return <div style={{ opacity }}>Hello World</div>;
};優點:
- • React生態複用(組件、hooks、狀態管理)
- • 強類型支援(TypeScript)
- • 成熟嘅生產級方案(Lambda分佈式渲染)
踩坑:
- • 許可證陷阱:Remotion 係 source-available,唔係 open source。公司年營收超過 $1.5M 或員工超過3人,需要付費license(詳見 Remotion License[1])
- • 需要打包構建,調試時熱更新比較慢
安裝:
npx create-video@latestHyperFrames:HTML派嘅黑馬
GitHub:19,011 Stars | https://github.com/heygen-com/hyperframes
HyperFrames 係 HeyGen 開源嘅,核心理念:直接寫 HTML + GSAP,唔使打包。
<div id="stage" data-composition-id="my-video" data-width="1920" data-height="1080">
<div id="title" data-start="0" data-duration="5" data-track-index="0">
Hello World
</div>
</div>優點:
- • Apache 2.0 完全開源,冇商業限制
- • 零構建,HTML直接預覽
- • AI友好:ChatGPT/Claude 都會寫 HTML
踩坑:
- • 需要 Node.js >= 22
- • 目前只支援單機渲染,分佈式渲染仲喺開發中
安裝:
npx hyperframes init my-video
cd my-video
npx hyperframes preview # 瀏覽器實時預覽
npx hyperframes render # 渲染為MP404 三件套組合:5分鐘出片嘅完整流程
我將呢三個工具串成一條流水線:
文案/素材 → HyperFrames生成動畫 → Faster-Whisper生成字幕 → FFmpeg合併輸出Step 1:用 AI + HyperFrames 生成視頻骨架
# 安裝 HyperFrames skills(讓AI懂怎麼寫)
npx skills add heygen-com/hyperframes
# 然後在 Claude Code / Cursor 裏說:
# "用 /hyperframes 幫我做一個10秒的產品介紹視頻,包含淡入標題和背景音樂"AI 會自動生成 index.html + DESIGN.md(樣式規範)。
Step 2:生成字幕
將你嘅配音文件掉畀 Faster-Whisper:
python transcribe.py narration.mp3
# 輸出:narration.srtStep 3:FFmpeg 合併輸出
ffmpeg -i video.mp4 -i narration.mp3 -i narration.srt \
-vf "subtitles=narration.srt:force_style='Fontsize=24'" \
-c:v libx264 -c:a aac output.mp4實測時間線:
- • 構思文案:3分鐘
- • AI生成動畫:2分鐘
- • 字幕生成:30秒
- • 渲染導出:15分鐘(背景運行,可以偷懶)
最後嘅話
以前做視頻嘅門檻係「你識唔識用剪輯軟件」,而家嘅門檻係「你識唔識將工具串起嚟」。
FFmpeg(60k Stars)+ Faster-Whisper(23k Stars)+ HyperFrames(19k Stars)呢三駕馬車套上AI嘅引擎,就算係好似我咁視覺感極差嘅人,都做得岀信息密度高、視覺效果勁靚嘅視頻。
呢個世界正在獎勵啲善於用工具表達自己嘅人。
🔥 完整配置包已經整理好,包含:
- • HyperFrames 項目模板
- • Faster-Whisper 字幕生成腳本
- • FFmpeg 常用命令速查表
加微信 AI55416951 加入 OPC AI編程實戰羣,備註「視頻流水線」,獲取完整配置包。
引用連結
[1] Remotion License: https://www.remotion.pro/license
做自媒體兩年,我一直有個心病——不會做視頻。
看着別人短視頻爆款一個接一個,我也想入局。但一想到要學PR、拉時間軸、調關鍵幀,我的頭就開始疼。更慘的是,我的視覺感差到離譜,沒有AI幫我排版,做的圖簡直沒法看。
直到上週,我測試了一套開源的"AI視頻流水線"——用3個GitHub項目串起來,5分鐘構思,20分鐘渲染,一條像樣的視頻就出來了。
今天把這套工具完整分享出來,附詳細安裝教程。
01 FFmpeg:視頻處理的"祖師爺"
GitHub:60,208 Stars | https://github.com/FFmpeg/FFmpeg
如果你做視頻不知道FFmpeg,就像做AI不知道Python。
它是整個視頻技術棧的地基——切、拼、轉,無所不能。YouTube、Netflix、你手機裏的剪輯軟件,底層都在用它。
核心能力
踩坑經驗
坑1:直接用-c copy截取,關鍵幀可能不準
解決方案:把 -ss 放到輸入參數前(如 ffmpeg -ss 10 -i input.mp4),從最近關鍵幀開始截取。如果精度要求高,去掉 -c copy,讓FFmpeg重新編碼。
坑2:GIF體積爆炸
一個10秒的GIF能到50MB。解決方案:加 -vf "fps=10,scale=320:-1",限制幀率和尺寸,體積瞬間降到2MB以內。
安裝方式
# macOS
brew install ffmpeg
# Ubuntu/Debian
sudo apt install ffmpeg
# Windows(推薦用scoop)
scoop install ffmpeg02 Faster-Whisper:語音轉字幕的"16倍加速器"
GitHub:22,964 Stars | https://github.com/SYSTRAN/faster-whisper
做視頻最痛苦的環節是什麼?打字幕。
以前一個3分鐘的視頻,我要聽一句打一句,校對1小時。Faster-Whisper 解決了這個問題——它是OpenAI Whisper的加速版,快4倍,內存佔用更少。
核心能力
官方Benchmark數據(13分鐘音頻,Large-v2模型):
實測:我的RTX 3060顯卡,一段5分鐘的音頻,用 int8 量化模式,23秒出帶時間軸的 .srt 字幕文件。
踩坑經驗
坑1:GPU推理報錯 CUDA out of memory
解決方案:用 int8 量化,顯存佔用減半,速度反而更快:
from faster_whisper import WhisperModel
model = WhisperModel("large-v2", device="cuda", compute_type="int8_float16")
segments, info = model.transcribe("audio.mp3")
for segment in segments:
print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))坑2:Python版本衝突
要求 Python 3.9+,如果你係統是 3.8,建議用 conda 創建獨立環境:
conda create -n whisper python=3.10
conda activate whisper
pip install faster-whisper安裝方式
pip install faster-whisper
# GPU加速需要CUDA 12 + cuDNN 9
# 詳細安裝見:https://github.com/SYSTRAN/faster-whisper#requirements03 Remotion vs HyperFrames:代碼寫視頻,兩種流派
這兩個項目都是"用代碼寫視頻"的代表作,但路線完全不同。
Remotion:React派的王者
GitHub:47,149 Stars | https://github.com/remotion-dev/remotion
Remotion 的核心理念:視頻裏的每一幀,都是一個 React 組件。
export const MyVideo = () => {
const frame = useCurrentFrame();
const opacity = frame / 30; // 30幀內逐漸顯現
return <div style={{ opacity }}>Hello World</div>;
};優點:
- • React生態複用(組件、hooks、狀態管理)
- • 強類型支持(TypeScript)
- • 成熟的生產級方案(Lambda分佈式渲染)
踩坑:
- • 許可證陷阱:Remotion 是 source-available,不是 open source。公司年營收超過 $1.5M 或員工超過3人,需要付費license(詳見 Remotion License[1])
- • 需要打包構建,調試時熱更新較慢
安裝:
npx create-video@latestHyperFrames:HTML派的黑馬
GitHub:19,011 Stars | https://github.com/heygen-com/hyperframes
HyperFrames 是 HeyGen 開源的,核心理念:直接寫 HTML + GSAP,無需打包。
<div id="stage" data-composition-id="my-video" data-width="1920" data-height="1080">
<div id="title" data-start="0" data-duration="5" data-track-index="0">
Hello World
</div>
</div>優點:
- • Apache 2.0 完全開源,無商業限制
- • 零構建,HTML直接預覽
- • AI友好:ChatGPT/Claude 都會寫 HTML
踩坑:
- • 需要 Node.js >= 22
- • 目前只支持單機渲染,分佈式渲染還在開發中
安裝:
npx hyperframes init my-video
cd my-video
npx hyperframes preview # 瀏覽器實時預覽
npx hyperframes render # 渲染為MP404 三件套組合:5分鐘出片的完整流程
我把這三個工具串成了一條流水線:
文案/素材 → HyperFrames生成動畫 → Faster-Whisper生成字幕 → FFmpeg合併輸出Step 1:用 AI + HyperFrames 生成視頻骨架
# 安裝 HyperFrames skills(讓AI懂怎麼寫)
npx skills add heygen-com/hyperframes
# 然後在 Claude Code / Cursor 裏說:
# "用 /hyperframes 幫我做一個10秒的產品介紹視頻,包含淡入標題和背景音樂"AI 會自動生成 index.html + DESIGN.md(樣式規範)。
Step 2:生成字幕
把你的配音文件丟給 Faster-Whisper:
python transcribe.py narration.mp3
# 輸出:narration.srtStep 3:FFmpeg 合併輸出
ffmpeg -i video.mp4 -i narration.mp3 -i narration.srt \
-vf "subtitles=narration.srt:force_style='Fontsize=24'" \
-c:v libx264 -c:a aac output.mp4實測時間線:
- • 構思文案:3分鐘
- • AI生成動畫:2分鐘
- • 字幕生成:30秒
- • 渲染導出:15分鐘(後台運行,可以摸魚)
最後的話
以前做視頻的門檻是"你會不會用剪輯軟件",現在的門檻是"你會不會把工具串起來"。
FFmpeg(60k Stars)+ Faster-Whisper(23k Stars)+ HyperFrames(19k Stars),這三駕馬車套上AI的引擎,即使像我這樣視覺感極差的人,也能做出信息密度高、視覺效果酷炫的視頻。
這個世界正在獎勵那些善於用工具表達自己的人。
🔥 完整配置包已整理好,包含:
- • HyperFrames 項目模板
- • Faster-Whisper 字幕生成腳本
- • FFmpeg 常用命令速查表
添加微信 AI55416951 加入 OPC AI編程實戰羣,備註"視頻流水線",獲取完整配置包。
引用連結
[1] Remotion License: https://www.remotion.pro/license