如何把 B 站視頻一鍵轉成文字稿 學習筆記

作者:CodeAI 實驗室
日期:2026年4月13日 上午8:05
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

用 yt-dlp 同 Whisper 將 B 站視頻一鍵轉成帶時間戳文字稿

整理版摘要

呢篇文章係分享一個將 B 站視頻轉成文字稿嘅方法,完全免費,唔使花 token。作者平時成日遇到冇字幕嘅視頻,做筆記要反覆暫停,效率好低,所以佢整合咗 yt-dlp 同 Whisper 呢兩個工具,實現自動下載音頻同語音識別。

成個流程好簡單:先用 yt-dlp 下載音頻,再用 Whisper 做語音識別,最後輸出帶時間戳嘅文字稿。呢個方案支援中文,識別準確率唔錯,而且第一次下載模型之後就可以離線用。作者推薦 base 模型作為日常使用,想更準可以揀 small 或 medium。

呢套工具鏈特別適合經常用 B 站學習嘅人,或者做內容創作需要提取視頻精華。用咗之後效率提升好多,以前 20 分鐘嘅視頻做筆記要 1 小時,而家基本自動搞掂,真係回唔到去手動聽寫。

  • 結論:用 yt-dlp + Whisper 可以免費自動將 B 站視頻轉成帶時間戳文字稿,告別手動聽寫。
  • 方法:安裝 Python 後執行 pip install yt-dlp openai-whisper,再用腳本或手動命令下載音頻並轉錄。
  • 差異:相比在線服務,呢個方案完全本地部署、免費、保護私隱,但需要一定電腦性能同初次下載模型。
  • 啟發:AI 工具組合嘅威力大過單個工具,將下載、識別、輸出串聯起嚟就可以大幅提升學習效率。
  • 可行動點:從 base 模型開始試用,日常使用已經夠好;留意權限同 PATH 問題即可順利運行。
整理重點

背景:點解需要呢個工具

平時睇 B 站,成日遇到一啲講得好好但冇字幕嘅視頻。想做筆記就要反覆暫停、手動聽寫,效率好低。

效率好低

呢篇文章就分享一個方法——將 B 站視頻直接轉成文字稿,仲要係帶時間戳嗰種。

帶時間戳

整理重點

核心工具:yt-dlp + Whisper

呢個方案嘅核心係兩樣嘢:yt-dlp 用嚟下載音頻,Whisper 用嚟做語音識別。

yt-dlp

Whisper

  • 唔使手動聽寫,直接自動轉
  • 支援中文,識別準確率唔錯
  • 輸出帶時間戳,方便做筆記同剪輯

不過都要注意:第一次要下載模型(約 140MB),轉錄速度取決於電腦性能。

整理重點

快速部署:三步搞掂環境

  1. 1 確保電腦有 Python 3.8 以上版本:python --version
  2. 2 打開命令行,執行 pip install yt-dlp openai-whisper --user,加 --user 係為咗避免權限問題。
  3. 3 驗證安裝:pip show yt-dlp 同 pip show openai-whisper,睇到包信息就 OK。

Python 3.8 以上

pip install --user

整理重點

兩種實操方法:一鍵腳本 vs 手動操作

推薦用一鍵腳本,更省事。只要拎到 BV 號,執行 python bilibili_transcribe.py BV號 output.txt base 就得。

一鍵腳本

手動操作命令 bash
# 下載音頻
yt-dlp -x --audio-format mp3 -o audio.mp3 "視頻地址"

# 轉文字
whisper audio.mp3 --model base --language zh --output_dir .

手動操作

手動操作會生成 .txt 同 .srt 兩個文件,方便做二次整理。

整理重點

模型選擇、常見問題同使用心得

越大越準,但越慢、越食性能

  • tiny:最快,一般準確,適合快速測試
  • base:快,不錯,日常使用(推薦)
  • small:中等,好,對準確率有要求
  • medium:慢,很好,專業用途
  • large:最慢,最佳,最高質量需求

base(推薦)

常見問題同解決方法

  1. 1 權限報錯:用 pip install ... --user 解決。
  2. 2 揾唔到 yt-dlp 命令:加 PATH,或臨時用 $env:Path += ";你的Python路徑\Scripts"
  3. 3 中文識別唔準:加上 --language zh,或換大啲模型,確保音頻清晰。
  4. 4 轉錄太慢:用 tiny 或 base 提速,主要睇電腦性能。

 

前言

平時碌 B 站,成日都會遇到一個問題:

有啲片講得好正,但就係冇字幕,想做筆記就要不停暫停、手動聽寫,效率好低。

呢篇文章就分享一個我自己喺用嘅方法——
將 B 站嘅片直接轉成文字稿,仲係有時間戳嗰種。

完全免費,模型喺本地部署,又唔使俾 token。

成個流程好簡單:

下載音頻 → 用 AI 自動辨識 → 輸出文字稿

唔使複雜操作,新手都識用。


項目介紹

呢個方案嘅核心,其實就係兩樣嘢:

  • • yt-dlp:用嚟下載 B 站片嘅音頻
  • • Whisper:用嚟做語音辨識(AI 轉文字)

成個流程係咁樣:

下載視頻音頻 → Whisper 語音識別 → 輸出文字稿

呢個方案有咩優點?

  • • 唔使手動聽寫,直接自動轉
  • • 支援中文,辨識準確率都算 ok
  • • 輸出有時間戳,方便做筆記、剪片

都有幾個要注意嘅地方

  • • 第一次要下載模型(大概 140MB)
  • • 轉錄速度取決於你電腦嘅效能

項目部署

呢部份其實就係環境準備,好簡單,三步搞掂。

1. 安裝 Python

確保你嘅電腦有 Python 3.8 或以上版本:

python --version

2. 安裝依賴

打開命令行,執行:

pip install yt-dlp openai-whisper --user

這裏加 --user 係為咗避免權限問題。


3. 驗證係咪安裝成功

pip show yt-dlp
pip show openai-whisper

睇到套件資訊就代表 OK 啦。


項目實戰

呢度分兩種方式:
推薦用 script(更方便),都可以手動操作。


方式一:一鍵 script(推薦)

第一步:拎到 BV 號

例如呢個連結:

https://www.bilibili.com/video/BV1oPFDzQEG7

BV 號就係:

BV1oPFDzQEG7

第二步:執行指令

python bilibili_transcribe.py BV1oPFDzQEG7 output.txt base

參數說明簡單講下:

  • • BV號:影片唯一標識
  • • output.txt:輸出檔案
  • • base:模型大小(推薦)

第三步:睇結果

生成嘅檔案入面會包含:

  • • 影片資訊(標題 / UP 主 / BV 號)
  • • 分段字幕(有時間)
  • • 完整文字稿

方式二:手動操作(更靈活)

第一步:下載音頻

yt-dlp -x --audio-format mp3 -o audio.mp3 "視頻地址"

第二步:轉文字

whisper audio.mp3 --model base --language zh --output_dir .

會生成兩個檔案:

  • • .txt:純文字
  • • .srt:字幕檔案

第三步:整理內容

根據你嘅需求做二次整理,例如:

  • • 做筆記
  • • 寫文章
  • • 做影片字幕

模型點樣揀?

模型

顯示卡記憶體佔用

轉錄速度

中文準確率

適用場景

tiny

~1GB

最快

一般

快速測試

base

~1GB

不錯

日常使用(推薦)

small

~2GB

中等

對準確率有要求

medium

~3GB

很好

專業用途

large

~5GB

最慢

最佳

最高質素需求

呢度俾你一個簡單結論,直接用就得:

  • • 日常使用:base(推薦)
  • • 想更準啲:small / medium
  • • 部機一般:tiny

一句講曬:

越大越準,但越慢、越食效能。


常見伏位(提前幫你踩咗)

1. 權限報錯

[WinError 5] 拒絕訪問

解決:

pip install yt-dlp openai-whisper --user

2. 揾唔到 yt-dlp 指令

原因係冇加 PATH,可以咁樣暫時解決:

$env:Path += ";你的Python路徑\Scripts"

3. 中文辨識唔準

建議:

  • • 加上 --language zh
  • • 換大啲嘅模型(small / medium)
  • • 確保音頻清晰

4. 轉錄太慢

呢個冇辦法,主要睇:

  • • 影片長度
  • • 電腦效能

可以用 tiny 或 base 提速。


項目心得

呢個工具我自己用咗之後,有幾個明顯感受:

第一,效率提升好明顯
以前一個 20 分鐘嘅片,做筆記至少要用 1 個鐘,而家基本上自動搞掂。

第二,特別適合做內容創作
比如:

  • • 寫公眾號
  • • 做知識整理
  • • 提取影片精華

第三,AI + 工具鏈嘅價值真係好大
其實單睇每個工具都唔複雜,但組合埋一齊就好強。


最後講一句

如果你成日睇 B 站學習、做內容,呢套方案真係值得配一套。

一旦用咗,你基本上返唔到轉頭用手動聽寫。


 

都睇到呢度喇,關注嚇啦。

 

前言

平時刷 B 站,經常會遇到一個問題:

有些視頻講得很好,但就是沒有字幕,想做筆記只能反覆暫停、手動聽寫,效率特別低。

這篇文章就分享一個我自己在用的方法——
把 B 站視頻直接轉成文字稿,而且還是帶時間戳的那種。

完全免費,模型本地部署,也不用花token。

整體流程其實很簡單:

下載音頻 → 用 AI 自動識別 → 輸出文字稿

不需要複雜操作,小白也能上手。


項目介紹

這個方案的核心,其實就是兩樣東西:

  • • yt-dlp:用來下載 B 站視頻的音頻
  • • Whisper:用來做語音識別(AI 轉文字)

整個流程是這樣的:

下載視頻音頻 → Whisper 語音識別 → 輸出文字稿

這個方案有什麼優點?

  • • 不用手動聽寫,直接自動轉
  • • 支持中文,識別準確率還不錯
  • • 輸出帶時間戳,方便做筆記、剪輯

也有幾個需要注意的點

  • • 第一次要下載模型(大概 140MB)
  • • 轉錄速度取決於你電腦性能

項目部署

這一塊其實就是環境準備,很簡單,三步搞定。

1. 安裝 Python

確保你的電腦有 Python 3.8 以上版本:

python --version

2. 安裝依賴

打開命令行,執行:

pip install yt-dlp openai-whisper --user

這裏加 --user 是為了避免權限問題。


3. 驗證是否安裝成功

pip show yt-dlp
pip show openai-whisper

能看到包信息就說明 OK 了。


項目實操

這裏分兩種方式:
推薦用腳本(更省事),也可以手動操作。


方式一:一鍵腳本(推薦)

第一步:拿到 BV 號

比如這個連結:

https://www.bilibili.com/video/BV1oPFDzQEG7

BV 號就是:

BV1oPFDzQEG7

第二步:執行命令

python bilibili_transcribe.py BV1oPFDzQEG7 output.txt base

參數說明簡單說一下:

  • • BV號:視頻唯一標識
  • • output.txt:輸出文件
  • • base:模型大小(推薦)

第三步:查看結果

生成的文件裏會包含:

  • • 視頻信息(標題 / UP 主 / BV 號)
  • • 分段字幕(帶時間)
  • • 完整文字稿

方式二:手動操作(更靈活)

第一步:下載音頻

yt-dlp -x --audio-format mp3 -o audio.mp3 "視頻地址"

第二步:轉文字

whisper audio.mp3 --model base --language zh --output_dir .

會生成兩個文件:

  • • .txt:純文本
  • • .srt:字幕文件

第三步:整理內容

根據你的需求做二次整理,比如:

  • • 做筆記
  • • 寫文章
  • • 做視頻字幕

模型怎麼選?

模型

顯存佔用

轉錄速度

中文準確率

適用場景

tiny

~1GB

最快

一般

快速測試

base

~1GB

不錯

日常使用(推薦)

small

~2GB

中等

對準確率有要求

medium

~3GB

很好

專業用途

large

~5GB

最慢

最佳

最高質量需求

這裏給你一個簡單結論,直接用就行:

  • • 日常使用:base(推薦)
  • • 想更準一點:small / medium
  • • 機器一般:tiny

一句話總結:

越大越準,但越慢、越吃性能。


常見坑(提前幫你踩了)

1. 權限報錯

[WinError 5] 拒絕訪問

解決:

pip install yt-dlp openai-whisper --user

2. 找不到 yt-dlp 命令

原因是沒加 PATH,可以這樣臨時解決:

$env:Path += ";你的Python路徑\Scripts"

3. 中文識別不準

建議:

  • • 加上 --language zh
  • • 換大一點模型(small / medium)
  • • 確保音頻清晰

4. 轉錄太慢

這個沒辦法,主要看:

  • • 視頻長度
  • • 電腦性能

可以用 tiny 或 base 提速。


項目心得

這個工具我自己用了之後,有幾個明顯感受:

第一,效率提升非常明顯
以前一個 20 分鐘的視頻,做筆記至少要 1 小時,現在基本自動搞定。

第二,特別適合做內容創作
比如:

  • • 寫公眾號
  • • 做知識整理
  • • 提取視頻精華

第三,AI + 工具鏈的價值真的很大
其實單看每個工具都不復雜,但組合起來就很強。


最後說一句

如果你經常看 B 站學習、做內容,這套方案真的值得配一套。

一旦用上,你基本就回不去手動聽寫了。


 

都看到這裏了,關注一下吧。