如何把 B 站視頻一鍵轉成文字稿 學習筆記
整理版優先睇
用 yt-dlp 同 Whisper 將 B 站視頻一鍵轉成帶時間戳文字稿
呢篇文章係分享一個將 B 站視頻轉成文字稿嘅方法,完全免費,唔使花 token。作者平時成日遇到冇字幕嘅視頻,做筆記要反覆暫停,效率好低,所以佢整合咗 yt-dlp 同 Whisper 呢兩個工具,實現自動下載音頻同語音識別。
成個流程好簡單:先用 yt-dlp 下載音頻,再用 Whisper 做語音識別,最後輸出帶時間戳嘅文字稿。呢個方案支援中文,識別準確率唔錯,而且第一次下載模型之後就可以離線用。作者推薦 base 模型作為日常使用,想更準可以揀 small 或 medium。
呢套工具鏈特別適合經常用 B 站學習嘅人,或者做內容創作需要提取視頻精華。用咗之後效率提升好多,以前 20 分鐘嘅視頻做筆記要 1 小時,而家基本自動搞掂,真係回唔到去手動聽寫。
- 結論:用 yt-dlp + Whisper 可以免費自動將 B 站視頻轉成帶時間戳文字稿,告別手動聽寫。
- 方法:安裝 Python 後執行 pip install yt-dlp openai-whisper,再用腳本或手動命令下載音頻並轉錄。
- 差異:相比在線服務,呢個方案完全本地部署、免費、保護私隱,但需要一定電腦性能同初次下載模型。
- 啟發:AI 工具組合嘅威力大過單個工具,將下載、識別、輸出串聯起嚟就可以大幅提升學習效率。
- 可行動點:從 base 模型開始試用,日常使用已經夠好;留意權限同 PATH 問題即可順利運行。
背景:點解需要呢個工具
平時睇 B 站,成日遇到一啲講得好好但冇字幕嘅視頻。想做筆記就要反覆暫停、手動聽寫,效率好低。
效率好低
呢篇文章就分享一個方法——將 B 站視頻直接轉成文字稿,仲要係帶時間戳嗰種。
帶時間戳
核心工具:yt-dlp + Whisper
呢個方案嘅核心係兩樣嘢:yt-dlp 用嚟下載音頻,Whisper 用嚟做語音識別。
yt-dlp
Whisper
- 唔使手動聽寫,直接自動轉
- 支援中文,識別準確率唔錯
- 輸出帶時間戳,方便做筆記同剪輯
不過都要注意:第一次要下載模型(約 140MB),轉錄速度取決於電腦性能。
快速部署:三步搞掂環境
- 1 確保電腦有 Python 3.8 以上版本:python --version
- 2 打開命令行,執行 pip install yt-dlp openai-whisper --user,加 --user 係為咗避免權限問題。
- 3 驗證安裝:pip show yt-dlp 同 pip show openai-whisper,睇到包信息就 OK。
Python 3.8 以上
pip install --user
兩種實操方法:一鍵腳本 vs 手動操作
推薦用一鍵腳本,更省事。只要拎到 BV 號,執行 python bilibili_transcribe.py BV號 output.txt base 就得。
一鍵腳本
# 下載音頻
yt-dlp -x --audio-format mp3 -o audio.mp3 "視頻地址"
# 轉文字
whisper audio.mp3 --model base --language zh --output_dir .
手動操作
手動操作會生成 .txt 同 .srt 兩個文件,方便做二次整理。
模型選擇、常見問題同使用心得
越大越準,但越慢、越食性能
- tiny:最快,一般準確,適合快速測試
- base:快,不錯,日常使用(推薦)
- small:中等,好,對準確率有要求
- medium:慢,很好,專業用途
- large:最慢,最佳,最高質量需求
base(推薦)
常見問題同解決方法:
- 1 權限報錯:用 pip install ... --user 解決。
- 2 揾唔到 yt-dlp 命令:加 PATH,或臨時用 $env:Path += ";你的Python路徑\Scripts"
- 3 中文識別唔準:加上 --language zh,或換大啲模型,確保音頻清晰。
- 4 轉錄太慢:用 tiny 或 base 提速,主要睇電腦性能。
前言
平時碌 B 站,成日都會遇到一個問題:
有啲片講得好正,但就係冇字幕,想做筆記就要不停暫停、手動聽寫,效率好低。
呢篇文章就分享一個我自己喺用嘅方法——
將 B 站嘅片直接轉成文字稿,仲係有時間戳嗰種。
完全免費,模型喺本地部署,又唔使俾 token。
成個流程好簡單:
下載音頻 → 用 AI 自動辨識 → 輸出文字稿
唔使複雜操作,新手都識用。
項目介紹
呢個方案嘅核心,其實就係兩樣嘢:
• yt-dlp:用嚟下載 B 站片嘅音頻• Whisper:用嚟做語音辨識(AI 轉文字)
成個流程係咁樣:
下載視頻音頻 → Whisper 語音識別 → 輸出文字稿呢個方案有咩優點?
• 唔使手動聽寫,直接自動轉 • 支援中文,辨識準確率都算 ok • 輸出有時間戳,方便做筆記、剪片
都有幾個要注意嘅地方
• 第一次要下載模型(大概 140MB) • 轉錄速度取決於你電腦嘅效能
項目部署
呢部份其實就係環境準備,好簡單,三步搞掂。
1. 安裝 Python
確保你嘅電腦有 Python 3.8 或以上版本:
python --version2. 安裝依賴
打開命令行,執行:
pip install yt-dlp openai-whisper --user這裏加 --user 係為咗避免權限問題。
3. 驗證係咪安裝成功
pip show yt-dlp
pip show openai-whisper睇到套件資訊就代表 OK 啦。
項目實戰
呢度分兩種方式:
推薦用 script(更方便),都可以手動操作。
方式一:一鍵 script(推薦)
第一步:拎到 BV 號
例如呢個連結:
https://www.bilibili.com/video/BV1oPFDzQEG7BV 號就係:
BV1oPFDzQEG7第二步:執行指令
python bilibili_transcribe.py BV1oPFDzQEG7 output.txt base參數說明簡單講下:
• BV號:影片唯一標識 • output.txt:輸出檔案 • base:模型大小(推薦)
第三步:睇結果
生成嘅檔案入面會包含:
• 影片資訊(標題 / UP 主 / BV 號) • 分段字幕(有時間) • 完整文字稿
方式二:手動操作(更靈活)
第一步:下載音頻
yt-dlp -x --audio-format mp3 -o audio.mp3 "視頻地址"第二步:轉文字
whisper audio.mp3 --model base --language zh --output_dir .會生成兩個檔案:
• .txt:純文字• .srt:字幕檔案
第三步:整理內容
根據你嘅需求做二次整理,例如:
• 做筆記 • 寫文章 • 做影片字幕
模型點樣揀?
模型 | 顯示卡記憶體佔用 | 轉錄速度 | 中文準確率 | 適用場景 |
| ~1GB | 最快 | 一般 | 快速測試 |
| ~1GB | 快 | 不錯 | 日常使用(推薦) |
| ~2GB | 中等 | 好 | 對準確率有要求 |
| ~3GB | 慢 | 很好 | 專業用途 |
| ~5GB | 最慢 | 最佳 | 最高質素需求 |
呢度俾你一個簡單結論,直接用就得:
• 日常使用: base(推薦)• 想更準啲: small/medium• 部機一般: tiny
一句講曬:
越大越準,但越慢、越食效能。
常見伏位(提前幫你踩咗)
1. 權限報錯
[WinError 5] 拒絕訪問解決:
pip install yt-dlp openai-whisper --user2. 揾唔到 yt-dlp 指令
原因係冇加 PATH,可以咁樣暫時解決:
$env:Path += ";你的Python路徑\Scripts"3. 中文辨識唔準
建議:
• 加上 --language zh• 換大啲嘅模型(small / medium) • 確保音頻清晰
4. 轉錄太慢
呢個冇辦法,主要睇:
• 影片長度 • 電腦效能
可以用 tiny 或 base 提速。
項目心得
呢個工具我自己用咗之後,有幾個明顯感受:
第一,效率提升好明顯
以前一個 20 分鐘嘅片,做筆記至少要用 1 個鐘,而家基本上自動搞掂。
第二,特別適合做內容創作
比如:
• 寫公眾號 • 做知識整理 • 提取影片精華
第三,AI + 工具鏈嘅價值真係好大
其實單睇每個工具都唔複雜,但組合埋一齊就好強。
最後講一句
如果你成日睇 B 站學習、做內容,呢套方案真係值得配一套。
一旦用咗,你基本上返唔到轉頭用手動聽寫。
前言
平時刷 B 站,經常會遇到一個問題:
有些視頻講得很好,但就是沒有字幕,想做筆記只能反覆暫停、手動聽寫,效率特別低。
這篇文章就分享一個我自己在用的方法——
把 B 站視頻直接轉成文字稿,而且還是帶時間戳的那種。
完全免費,模型本地部署,也不用花token。
整體流程其實很簡單:
下載音頻 → 用 AI 自動識別 → 輸出文字稿
不需要複雜操作,小白也能上手。
項目介紹
這個方案的核心,其實就是兩樣東西:
• yt-dlp:用來下載 B 站視頻的音頻• Whisper:用來做語音識別(AI 轉文字)
整個流程是這樣的:
下載視頻音頻 → Whisper 語音識別 → 輸出文字稿這個方案有什麼優點?
• 不用手動聽寫,直接自動轉 • 支持中文,識別準確率還不錯 • 輸出帶時間戳,方便做筆記、剪輯
也有幾個需要注意的點
• 第一次要下載模型(大概 140MB) • 轉錄速度取決於你電腦性能
項目部署
這一塊其實就是環境準備,很簡單,三步搞定。
1. 安裝 Python
確保你的電腦有 Python 3.8 以上版本:
python --version2. 安裝依賴
打開命令行,執行:
pip install yt-dlp openai-whisper --user這裏加 --user 是為了避免權限問題。
3. 驗證是否安裝成功
pip show yt-dlp
pip show openai-whisper能看到包信息就說明 OK 了。
項目實操
這裏分兩種方式:
推薦用腳本(更省事),也可以手動操作。
方式一:一鍵腳本(推薦)
第一步:拿到 BV 號
比如這個連結:
https://www.bilibili.com/video/BV1oPFDzQEG7BV 號就是:
BV1oPFDzQEG7第二步:執行命令
python bilibili_transcribe.py BV1oPFDzQEG7 output.txt base參數說明簡單說一下:
• BV號:視頻唯一標識 • output.txt:輸出文件 • base:模型大小(推薦)
第三步:查看結果
生成的文件裏會包含:
• 視頻信息(標題 / UP 主 / BV 號) • 分段字幕(帶時間) • 完整文字稿
方式二:手動操作(更靈活)
第一步:下載音頻
yt-dlp -x --audio-format mp3 -o audio.mp3 "視頻地址"第二步:轉文字
whisper audio.mp3 --model base --language zh --output_dir .會生成兩個文件:
• .txt:純文本• .srt:字幕文件
第三步:整理內容
根據你的需求做二次整理,比如:
• 做筆記 • 寫文章 • 做視頻字幕
模型怎麼選?
模型 | 顯存佔用 | 轉錄速度 | 中文準確率 | 適用場景 |
| ~1GB | 最快 | 一般 | 快速測試 |
| ~1GB | 快 | 不錯 | 日常使用(推薦) |
| ~2GB | 中等 | 好 | 對準確率有要求 |
| ~3GB | 慢 | 很好 | 專業用途 |
| ~5GB | 最慢 | 最佳 | 最高質量需求 |
這裏給你一個簡單結論,直接用就行:
• 日常使用: base(推薦)• 想更準一點: small/medium• 機器一般: tiny
一句話總結:
越大越準,但越慢、越吃性能。
常見坑(提前幫你踩了)
1. 權限報錯
[WinError 5] 拒絕訪問解決:
pip install yt-dlp openai-whisper --user2. 找不到 yt-dlp 命令
原因是沒加 PATH,可以這樣臨時解決:
$env:Path += ";你的Python路徑\Scripts"3. 中文識別不準
建議:
• 加上 --language zh• 換大一點模型(small / medium) • 確保音頻清晰
4. 轉錄太慢
這個沒辦法,主要看:
• 視頻長度 • 電腦性能
可以用 tiny 或 base 提速。
項目心得
這個工具我自己用了之後,有幾個明顯感受:
第一,效率提升非常明顯
以前一個 20 分鐘的視頻,做筆記至少要 1 小時,現在基本自動搞定。
第二,特別適合做內容創作
比如:
• 寫公眾號 • 做知識整理 • 提取視頻精華
第三,AI + 工具鏈的價值真的很大
其實單看每個工具都不復雜,但組合起來就很強。
最後說一句
如果你經常看 B 站學習、做內容,這套方案真的值得配一套。
一旦用上,你基本就回不去手動聽寫了。