如何把 B 站視頻一鍵轉成文字稿學習筆記

作者：CodeAI 實驗室

日期：2026年4月13日上午8:05

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

用 yt-dlp 同 Whisper 將 B 站視頻一鍵轉成帶時間戳文字稿

整理版摘要

呢篇文章係分享一個將 B 站視頻轉成文字稿嘅方法，完全免費，唔使花 token。作者平時成日遇到冇字幕嘅視頻，做筆記要反覆暫停，效率好低，所以佢整合咗 yt-dlp 同 Whisper 呢兩個工具，實現自動下載音頻同語音識別。

成個流程好簡單：先用 yt-dlp 下載音頻，再用 Whisper 做語音識別，最後輸出帶時間戳嘅文字稿。呢個方案支援中文，識別準確率唔錯，而且第一次下載模型之後就可以離線用。作者推薦 base 模型作為日常使用，想更準可以揀 small 或 medium。

呢套工具鏈特別適合經常用 B 站學習嘅人，或者做內容創作需要提取視頻精華。用咗之後效率提升好多，以前 20 分鐘嘅視頻做筆記要 1 小時，而家基本自動搞掂，真係回唔到去手動聽寫。

結論：用 yt-dlp + Whisper 可以免費自動將 B 站視頻轉成帶時間戳文字稿，告別手動聽寫。
方法：安裝 Python 後執行 pip install yt-dlp openai-whisper，再用腳本或手動命令下載音頻並轉錄。
差異：相比在線服務，呢個方案完全本地部署、免費、保護私隱，但需要一定電腦性能同初次下載模型。
啟發：AI 工具組合嘅威力大過單個工具，將下載、識別、輸出串聯起嚟就可以大幅提升學習效率。
可行動點：從 base 模型開始試用，日常使用已經夠好；留意權限同 PATH 問題即可順利運行。

整理重點

背景：點解需要呢個工具

平時睇 B 站，成日遇到一啲講得好好但冇字幕嘅視頻。想做筆記就要反覆暫停、手動聽寫，效率好低。

效率好低

呢篇文章就分享一個方法——將 B 站視頻直接轉成文字稿，仲要係帶時間戳嗰種。

帶時間戳

整理重點

核心工具：yt-dlp + Whisper

呢個方案嘅核心係兩樣嘢：yt-dlp 用嚟下載音頻，Whisper 用嚟做語音識別。

yt-dlp

Whisper

唔使手動聽寫，直接自動轉
支援中文，識別準確率唔錯
輸出帶時間戳，方便做筆記同剪輯

不過都要注意：第一次要下載模型（約 140MB），轉錄速度取決於電腦性能。

整理重點

快速部署：三步搞掂環境

1 確保電腦有 Python 3.8 以上版本：python --version
2 打開命令行，執行 pip install yt-dlp openai-whisper --user，加 --user 係為咗避免權限問題。
3 驗證安裝：pip show yt-dlp 同 pip show openai-whisper，睇到包信息就 OK。

Python 3.8 以上

pip install --user

整理重點

兩種實操方法：一鍵腳本 vs 手動操作

推薦用一鍵腳本，更省事。只要拎到 BV 號，執行 python bilibili_transcribe.py BV號 output.txt base 就得。

一鍵腳本

手動操作命令 bash

# 下載音頻
yt-dlp -x --audio-format mp3 -o audio.mp3 "視頻地址"

# 轉文字
whisper audio.mp3 --model base --language zh --output_dir .

手動操作

手動操作會生成 .txt 同 .srt 兩個文件，方便做二次整理。

整理重點

模型選擇、常見問題同使用心得

越大越準，但越慢、越食性能

tiny：最快，一般準確，適合快速測試
base：快，不錯，日常使用（推薦）
small：中等，好，對準確率有要求
medium：慢，很好，專業用途
large：最慢，最佳，最高質量需求

base（推薦）

常見問題同解決方法：

1 權限報錯：用 pip install ... --user 解決。
2 揾唔到 yt-dlp 命令：加 PATH，或臨時用 $env:Path += ";你的Python路徑\Scripts"
3 中文識別唔準：加上 --language zh，或換大啲模型，確保音頻清晰。
4 轉錄太慢：用 tiny 或 base 提速，主要睇電腦性能。

前言

平時碌 B 站，成日都會遇到一個問題：

有啲片講得好正，但就係冇字幕，想做筆記就要不停暫停、手動聽寫，效率好低。

呢篇文章就分享一個我自己喺用嘅方法——
將 B 站嘅片直接轉成文字稿，仲係有時間戳嗰種。

完全免費，模型喺本地部署，又唔使俾 token。

成個流程好簡單：

下載音頻 → 用 AI 自動辨識 → 輸出文字稿

唔使複雜操作，新手都識用。

項目介紹

呢個方案嘅核心，其實就係兩樣嘢：

• yt-dlp：用嚟下載 B 站片嘅音頻
• Whisper：用嚟做語音辨識（AI 轉文字）

成個流程係咁樣：

下載視頻音頻 → Whisper 語音識別 → 輸出文字稿

呢個方案有咩優點？

• 唔使手動聽寫，直接自動轉
• 支援中文，辨識準確率都算 ok
• 輸出有時間戳，方便做筆記、剪片

都有幾個要注意嘅地方

• 第一次要下載模型（大概 140MB）
• 轉錄速度取決於你電腦嘅效能

項目部署

呢部份其實就係環境準備，好簡單，三步搞掂。

1. 安裝 Python

確保你嘅電腦有 Python 3.8 或以上版本：

python --version

2. 安裝依賴

打開命令行，執行：

pip install yt-dlp openai-whisper --user

這裏加 --user 係為咗避免權限問題。

3. 驗證係咪安裝成功

pip show yt-dlp
pip show openai-whisper

睇到套件資訊就代表 OK 啦。

項目實戰

呢度分兩種方式：
推薦用 script（更方便），都可以手動操作。

方式一：一鍵 script（推薦）

第一步：拎到 BV 號

例如呢個連結：

https://www.bilibili.com/video/BV1oPFDzQEG7

BV 號就係：

BV1oPFDzQEG7

第二步：執行指令

python bilibili_transcribe.py BV1oPFDzQEG7 output.txt base

參數說明簡單講下：

• BV號：影片唯一標識
• output.txt：輸出檔案
• base：模型大小（推薦）

第三步：睇結果

生成嘅檔案入面會包含：

• 影片資訊（標題 / UP 主 / BV 號）
• 分段字幕（有時間）
• 完整文字稿

方式二：手動操作（更靈活）

第一步：下載音頻

yt-dlp -x --audio-format mp3 -o audio.mp3 "視頻地址"

第二步：轉文字

whisper audio.mp3 --model base --language zh --output_dir .

會生成兩個檔案：

• .txt：純文字
• .srt：字幕檔案

第三步：整理內容

根據你嘅需求做二次整理，例如：

• 做筆記
• 寫文章
• 做影片字幕

模型點樣揀？

模型	顯示卡記憶體佔用	轉錄速度	中文準確率	適用場景
`tiny`	~1GB	最快	一般	快速測試
`base`	~1GB	快	不錯	日常使用（推薦）
`small`	~2GB	中等	好	對準確率有要求
`medium`	~3GB	慢	很好	專業用途
`large`	~5GB	最慢	最佳	最高質素需求

呢度俾你一個簡單結論，直接用就得：

• 日常使用：base（推薦）
• 想更準啲：small / medium
• 部機一般：tiny

一句講曬：

越大越準，但越慢、越食效能。

常見伏位（提前幫你踩咗）

1. 權限報錯

[WinError 5] 拒絕訪問

解決：

pip install yt-dlp openai-whisper --user

2. 揾唔到 yt-dlp 指令

原因係冇加 PATH，可以咁樣暫時解決：

$env:Path += ";你的Python路徑\Scripts"

3. 中文辨識唔準

建議：

• 加上 --language zh
• 換大啲嘅模型（small / medium）
• 確保音頻清晰

4. 轉錄太慢

呢個冇辦法，主要睇：

• 影片長度
• 電腦效能

可以用 tiny 或 base 提速。

項目心得

呢個工具我自己用咗之後，有幾個明顯感受：

第一，效率提升好明顯
以前一個 20 分鐘嘅片，做筆記至少要用 1 個鐘，而家基本上自動搞掂。

第二，特別適合做內容創作
比如：

• 寫公眾號
• 做知識整理
• 提取影片精華

第三，AI + 工具鏈嘅價值真係好大
其實單睇每個工具都唔複雜，但組合埋一齊就好強。

最後講一句

如果你成日睇 B 站學習、做內容，呢套方案真係值得配一套。

一旦用咗，你基本上返唔到轉頭用手動聽寫。

都睇到呢度喇，關注嚇啦。

前言

平時刷 B 站，經常會遇到一個問題：

有些視頻講得很好，但就是沒有字幕，想做筆記只能反覆暫停、手動聽寫，效率特別低。

這篇文章就分享一個我自己在用的方法——
把 B 站視頻直接轉成文字稿，而且還是帶時間戳的那種。

完全免費，模型本地部署，也不用花token。

整體流程其實很簡單：

下載音頻 → 用 AI 自動識別 → 輸出文字稿

不需要複雜操作，小白也能上手。

項目介紹

這個方案的核心，其實就是兩樣東西：

• yt-dlp：用來下載 B 站視頻的音頻
• Whisper：用來做語音識別（AI 轉文字）

整個流程是這樣的：

下載視頻音頻 → Whisper 語音識別 → 輸出文字稿

這個方案有什麼優點？

• 不用手動聽寫，直接自動轉
• 支持中文，識別準確率還不錯
• 輸出帶時間戳，方便做筆記、剪輯

也有幾個需要注意的點

• 第一次要下載模型（大概 140MB）
• 轉錄速度取決於你電腦性能

項目部署

這一塊其實就是環境準備，很簡單，三步搞定。

1. 安裝 Python

確保你的電腦有 Python 3.8 以上版本：

python --version

2. 安裝依賴

打開命令行，執行：

pip install yt-dlp openai-whisper --user

這裏加 --user 是為了避免權限問題。

3. 驗證是否安裝成功

pip show yt-dlp
pip show openai-whisper

能看到包信息就說明 OK 了。

項目實操

這裏分兩種方式：
推薦用腳本（更省事），也可以手動操作。

方式一：一鍵腳本（推薦）

第一步：拿到 BV 號

比如這個連結：

https://www.bilibili.com/video/BV1oPFDzQEG7

BV 號就是：

BV1oPFDzQEG7

第二步：執行命令

python bilibili_transcribe.py BV1oPFDzQEG7 output.txt base

參數說明簡單說一下：

• BV號：視頻唯一標識
• output.txt：輸出文件
• base：模型大小（推薦）

第三步：查看結果

生成的文件裏會包含：

• 視頻信息（標題 / UP 主 / BV 號）
• 分段字幕（帶時間）
• 完整文字稿

方式二：手動操作（更靈活）

第一步：下載音頻

yt-dlp -x --audio-format mp3 -o audio.mp3 "視頻地址"

第二步：轉文字

whisper audio.mp3 --model base --language zh --output_dir .

會生成兩個文件：

• .txt：純文本
• .srt：字幕文件

第三步：整理內容

根據你的需求做二次整理，比如：

• 做筆記
• 寫文章
• 做視頻字幕

模型怎麼選？

模型	顯存佔用	轉錄速度	中文準確率	適用場景
`tiny`	~1GB	最快	一般	快速測試
`base`	~1GB	快	不錯	日常使用（推薦）
`small`	~2GB	中等	好	對準確率有要求
`medium`	~3GB	慢	很好	專業用途
`large`	~5GB	最慢	最佳	最高質量需求

這裏給你一個簡單結論，直接用就行：

• 日常使用：base（推薦）
• 想更準一點：small / medium
• 機器一般：tiny

一句話總結：

越大越準，但越慢、越吃性能。

常見坑（提前幫你踩了）

1. 權限報錯

[WinError 5] 拒絕訪問

解決：

pip install yt-dlp openai-whisper --user

2. 找不到 yt-dlp 命令

原因是沒加 PATH，可以這樣臨時解決：

$env:Path += ";你的Python路徑\Scripts"

3. 中文識別不準

建議：

• 加上 --language zh
• 換大一點模型（small / medium）
• 確保音頻清晰

4. 轉錄太慢

這個沒辦法，主要看：

• 視頻長度
• 電腦性能

可以用 tiny 或 base 提速。

項目心得

這個工具我自己用了之後，有幾個明顯感受：

第一，效率提升非常明顯
以前一個 20 分鐘的視頻，做筆記至少要 1 小時，現在基本自動搞定。

第二，特別適合做內容創作
比如：

• 寫公眾號
• 做知識整理
• 提取視頻精華

第三，AI + 工具鏈的價值真的很大
其實單看每個工具都不復雜，但組合起來就很強。

最後說一句

如果你經常看 B 站學習、做內容，這套方案真的值得配一套。

一旦用上，你基本就回不去手動聽寫了。

都看到這裏了，關注一下吧。