磁盤空間告急?yt-dlp + Whisper 產出的文件清理指南

作者:whatnow
日期:2026年4月25日 上午1:52
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

使用 yt-dlp + Whisper 後嘅文件清理:.wav 係大户,.txt 可以留,記住 mv 代替 rm 先安全

整理版摘要

呢篇文章係「yt-dlp + Whisper 系列」嘅第二篇,作者先講咗系列第一篇教大家用呢兩個工具批量下載 B 站影片並轉成文字,但之後就發現 .wav 音頻文件大到離譜,50 集課程可以食 5GB 空間。為咗解決呢個問題,作者用自身經驗寫咗呢篇清理指南,目標係教人安全噉清理大型音頻文件,保留有用嘅文字筆記。整體結論好明確:.txt 留低,.wav 刪走,但刪之前最好用 mv 移入廢紙簍,避免 rm 永久刪除後冇得救。

文章開頭先點出工作目錄入面邊啲文件最食位:.wav 每個成 100MB,.txt 得幾十 KB,所以清理核心就係消滅 .wav。然後作者介紹幾種清理方法,由最基本嘅 rm *.wav 到全部清空、安全移到廢紙簍,再到用 for 循環邊轉寫邊刪,適合唔同需要。最後仲有實用小技巧,例如用 du -sh 睇目錄大小、ls -lh 睇每個文件大細、刪除前用 ls 預覽,撈埋常見問題解答,包括 rm 同 rm -rf 嘅分別、唔小心刪錯點算、Whisper 模型文件要唔要刪等。成篇文結構清晰,係實用型教學,適合用過 yt-dlp + Whisper 之後想清理空間嘅用戶。

  • 清理核心:.wav 佔幾百 MB,.txt 僅幾十 KB,所以只刪音頻、保留文字最常見。
  • 最常用方法:rm *.wav 一條命令刪走所有音頻,即時釋放幾個 GB 空間。
  • 安全做法:用 mv *.wav ~/.Trash/ 將文件移入廢紙簍,30 日內可恢復,避免 rm 永久刪除。
  • 高級玩法:用 for 循環腳本邊轉寫邊刪除,同一時間磁盤只有一個音頻文件。
  • 習慣養成:刪除前先用 ls *.wav 預覽,確認無誤先執行 rm,避免誤刪。
值得記低
筆記

文件清理命令速查卡(清理篇)

只刪音頻保留文本:rm *.wav 全部文件都刪:rm *.wav *.txt 安全刪除(可恢復):mv *.wav ~/.Trash/ 刪除整個工作目錄:rm -rf ~/Desktop/bilibili-text 邊轉寫邊刪除:用 for 循環腳本 查看空間佔用:du -sh ~/Desktop/bilibili-text 查看每個文件大小:ls -lh ~/Desktop/bilibili-text 刪除前預覽:ls *.wav

整理重點

先搞清楚:邊啲文件係空間殺手?

用 yt-dlp + Whisper 完成批量提取之後,工作目錄 ~/Desktop/bilibili-text 入面會有 .wav 音頻同 .txt 文字檔。.wav 每一集大概 100MB,50 集就食 5GB;.txt 每集得幾十 KB,全部加埋都唔夠 2MB。

.wav 係空間大户,.txt 細到可以忽略

所以清理嘅核心思路好簡單:消滅 .wav,保留 .txt。

整理重點

四種清理方法,由基本到高階

如果你確定文字都唔需要,可以用 rm *.wav *.txt 全部刪走。但要留意 urls.txt 都係 .txt 結尾,會一併消失;可以先用 mv 搬走再刪。

rm 係永久刪除,唔會入廢紙簍

想安全啲,就用 mv *.wav ~/.Trash/ 將音頻移入廢紙簍,30 日內隨時復原。高級玩家可以寫個 for 循環,每轉寫完一個音頻即刻刪除,慳到盡。

邊轉寫邊刪除腳本 bash
for f in *.wav; do
  echo "正在轉寫: $f"
  whisper "$f" --language zh --model small --output_format txt
  echo "轉寫完成,刪除音頻: $f"
  rm "$f"
done
整理重點

實用小技巧:睇清空間、預演刪除

先 ls 再 rm,養成習慣就唔怕誤刪

常見問題:rm 同 rm -rf 嘅分別係 -r 遞迴、-f 強制,合埋就係核彈級刪除,新手唔好亂用。唔小心 rm 錯咗,常規手段好難救;用 mv 就安心好多。Whisper 模型文件喺 ~/.cache/whisper/,以後唔用可以刪,但建議留低免得重新下載。

《上篇》教咗你用 yt-dlp + Whisper 批量提取 B站 視頻文字。但問題嚟啦——嗰啲 .wav 音頻文件,一個個肥到似豬咁,50集課程可以食咗你十幾個G。呢篇續集,一步步教你安全清理,唔會錯刪、唔會中伏。


先搞清楚:邊啲文件佔空間?

上篇我哋行完個流程之後,工作目錄 ~/Desktop/bilibili-text 裏面大概會留低呢啲嘢:

bilibili-text/├── 浙江大學翁愷教你C語言-P01.wav        ← 100MB+├── 浙江大學翁愷教你C語言-P02.wav        ← 100MB+├── 浙江大學翁愷教你C語言-P03.wav        ← 100MB+├── ...(更多 wav 文件)├── 浙江大學翁愷教你C語言-P01.txt        ← 幾十 KB├── 浙江大學翁愷教你C語言-P02.txt        ← 幾十 KB├── 浙江大學翁愷教你C語言-P03.txt        ← 幾十 KB├── ...(更多 txt 文件)└── urls.txt                             ← 幾百字節

嚟,計條數:

檔案類型
單個大細
10集總大細
50集總大細
.wav 音頻
~100MB/10分鐘
~1GB
~5GB
.txt 文本
~30KB
~300KB
~1.5MB

結論好明顯:.wav 係空間大户,.txt 細到可以忽略。

所以清理嘅核心思路就係:**將 .wav 幹掉,.txt 留低。 *

清理方式一:淨係刪音頻,保留文本(最常用)

呢個係最常見嘅需求——文字已經提取咗出嚟,音頻冇用了,但係文本仲想留低以後翻睇。

rm *.wav

就呢三個字母加一個星號同一個點,搞掂。

執行之後你嘅目錄就會變成咁:

bilibili-text/├── 浙江大學翁愷教你C語言-P01.txt        ← 還在├── 浙江大學翁愷教你C語言-P02.txt        ← 還在├── 浙江大學翁愷教你C語言-P03.txt        ← 還在└── urls.txt                             ← 還在

幾個G嘅空間即刻釋放出嚟,爽歪歪。


清理方式二:全部刪曬(用完即走)

文本都睇過咗,唔需要啦,全部清空:

rm *.wav *.txt

呢個會將目錄入面所有嘅 .wav 和 .txt 文件刪曬。如果你仲想保留 urls.txt(連結列表),佢唔會被刪,因為佢唔係 .txt 結尾嘅……等等,佢的確係 .txt 結尾嘅。所以佢都會被刪。

😅 如果你想保留 urls.txt,首先將佢搬走:

mv urls.txt ~/Desktop/rm *.wav *.txtmv ~/Desktop/urls.txt .

或者更簡單,直接刪曬成個目錄:

rm -rf ~/Desktop/bilibili-text

呢個會將成個 bilibili-text 資料夾連同入面所有文件全部刪曬,連資料夾本身都唔留。下次需要嗰陣重新 mkdir 就行。


清理方式三:安全刪除(放入垃圾桶)

睇到呢度,有啲朋友可能開始慌:**rm 指令刪除嘅文件可唔可以復原?**

答案係:不能。

rm 係『永久刪除』,文件唔會入垃圾桶,直接喺磁盤上面剷走。就好似將一張紙掉咗入碎紙機,冇回頭路。

如果你唔係咁放心,想用更安全嘅方式——移到垃圾桶

mv *.wav ~/.Trash/

這樣 .wav 文件會乖乖咁入咗你嘅垃圾桶,30日之內隨時可以復原。萬一刪錯咗都唔使慌。

💡 mv 係『move』(移動)嘅縮寫,~/.Trash/ 就係 macOS 垃圾桶嘅路徑。所以呢條指令嘅意思就係『將所有 wav 文件移到垃圾桶』。


清理方式四:一邊轉寫一邊刪除(高級玩家)

如果你要處理幾十上百個視頻,逐個下載再轉寫,音頻文件會越積越多,磁盤可能頂唔順。

呢個時候可以用一個自動化腳本,轉寫完一個就刪一個:

for f in *.wav; do  echo "正在轉寫: $f"  whisper "$f" --language zh --model small --output_format txt  echo "轉寫完成,刪除音頻: $f"  rm "$f"done

呢段腳本做咗啲咩?

  1. 揾到目錄入面所有嘅 .wav 文件
  2. 逐個送俾 Whisper 轉寫
  3. 轉寫完即刻刪除對應嘅 .wav
  4. 繼續處理下一個

咁樣你嘅磁盤入面同時最多得一個音頻文件,空間佔用降到最低。

⚠️ 複製貼上嗰陣注意:fordodone 呢啲關鍵字要單獨一行,唔可以同其他代碼迫埋一齊。


實用小技巧

睇下目錄佔咗幾多空間

唔確定到底佔咗幾多?一條指令睇清楚:

du -sh ~/Desktop/bilibili-text

輸出類似咁:

1.2G    /Users/keyi/Desktop/bilibili-text

1.2G,難怪電腦慢咗。刪!

睇下每個文件分別有幾大

ls -lh ~/Desktop/bilibili-text

輸出類似:

-rw-r--r--  1 keyi  staff   105M  4月 23 21:40  浙江大學翁愷教你C語言-P01.wav-rw-r--r--  1 keyi  staff    28K  4月 23 21:45  浙江大學翁愷教你C語言-P01.txt-rw-r--r--  1 keyi  staff   108M  4月 23 21:41  浙江大學翁愷教你C語言-P02.wav-rw-r--r--  1 keyi  staff    32K  4月 23 21:48  浙江大學翁愷教你C語言-P02.txt

一目瞭然,邊個係空間殺手清清楚楚。

刪除之前先『預演』

怕刪錯?先睇下會刪咗邊啲文件:

ls *.wav

確認全部都係你要刪嘅,再執行 rm *.wav


新手常見問題

Q1:rm 和 rm -rf 有咩分別?

命令
作用
危險程度
rm *.wav
刪除呢個目錄入面所有 .wav 文件
⭐⭐
rm -rf 目錄名
刪除成個目錄同佢所有內容
⭐⭐⭐⭐⭐

-r 係遞歸(連子目錄一齊刪),-f 係強制(唔問你就刪)。兩個加埋一齊就係『核彈級別』嘅刪除指令。

新手建議:盡量淨係用 rm *.wav 呢種帶通配符嘅格式,避免用 rm -rf

Q2:我唔小心刪錯咗點算?

如果係用 rm(永久刪除):好遺憾,常規手段冇辦法復原。可以試下數據恢復軟件例如 Disk Drill,但唔保證可以揾得返。

如果係用 mv(移到垃圾桶):打開垃圾桶,right click『放回原位』就得。

所以,唔確定嘅時候,用 mv 移到垃圾桶,唔好用 rm

Q3:Whisper 下載嘅模型文件都要刪咩?

Whisper 嘅模型文件緩存喺 ~/.cache/whisper/ 目錄入面,大概佔 500MB(small 模型)。

如果你以後唔再用 Whisper 啦,可以刪:

rm -rf ~/.cache/whisper

但如果你以後仲打算用,建議留低——下次就唔使重新下載啦。

Q4:有冇『一鍵清理全部』嘅指令?

有。如果你確定成個工作目錄都唔需要啦:

rm -rf ~/Desktop/bilibili-text

乾淨利落,連根拔起。


指令速查卡(清理篇)

你想做啲咩
命令
淨係刪音頻,保留文本
rm *.wav
全部文件都刪
rm *.wav *.txt
安全刪除(可復原)
mv *.wav ~/.Trash/
刪除成個工作目錄
rm -rf ~/Desktop/bilibili-text
一邊轉寫一邊刪除
用 for 循環腳本
睇下空間佔用
du -sh ~/Desktop/bilibili-text
睇下每個文件大細
ls -lh ~/Desktop/bilibili-text
刪除前預覽
ls *.wav

寫喺最後

清理文件呢件事,講到尾就一句話:**.txt 留着,.wav 刪曬。**

文本文件幾 KB,音頻文件幾百 MB,呢條數邊個都識計。

但我想強調一點:唔確定嘅時候,用 mv 移到垃圾桶,唔好用 rm 終端唔會問你『你確定嗎?』,撳下 Enter 就係執行,冇撤銷鍵。

養成『先 ls 睇一眼,再 rm 刪』嘅習慣,你就永遠唔會錯刪。

好啦,yt-dlp + Whisper 嘅完整流程——由安裝、下載、轉寫到清理,到呢度就全部講曬啦。你而家擁有咗一條完整嘅視頻→文字→清理流水線。

去試下啦,你嘅B站收藏夾入面嗰啲『下次一定睇』嘅視頻,終於可以變成文字筆記啦。😎


呢個係『yt-dlp + Whisper 系列』嘅第二篇。《第一篇:免費批量提取視頻文字?呢兩個神仙工具你一定要知》請睇返歷史文章。有問題歡迎喺評論區交流!

《上一篇》教了你用 yt-dlp + Whisper 批量提取B站視頻文字。但問題來了——那些 .wav 音頻文件,一個個肥得跟豬一樣,50集課程能吃掉你十幾個G。這篇續集,手把手教你安全清理,不誤刪、不踩坑。


先搞清楚:哪些文件佔空間?

上篇我們跑完整個流程後,工作目錄 ~/Desktop/bilibili-text 裏大概會留下這些東西:

bilibili-text/├── 浙江大學翁愷教你C語言-P01.wav        ← 100MB+├── 浙江大學翁愷教你C語言-P02.wav        ← 100MB+├── 浙江大學翁愷教你C語言-P03.wav        ← 100MB+├── ...(更多 wav 文件)├── 浙江大學翁愷教你C語言-P01.txt        ← 幾十 KB├── 浙江大學翁愷教你C語言-P02.txt        ← 幾十 KB├── 浙江大學翁愷教你C語言-P03.txt        ← 幾十 KB├── ...(更多 txt 文件)└── urls.txt                             ← 幾百字節

來,算一筆賬:

文件類型
單個大小
10集總大小
50集總大小
.wav 音頻
~100MB/10分鐘
~1GB
~5GB
.txt 文本
~30KB
~300KB
~1.5MB

結論很明顯:.wav 是空間大户,.txt 小到可以忽略。

所以清理的核心思路就是:**把 .wav 幹掉,.txt 留着。 *

清理方式一:只刪音頻,保留文本(最常用)

這是最常見的需求——文字已經提取出來了,音頻沒用了,但文本還想留着以後翻看。

rm *.wav

就這三個字母加一個星號和一個點,完事。

執行後你的目錄就變成了:

bilibili-text/├── 浙江大學翁愷教你C語言-P01.txt        ← 還在├── 浙江大學翁愷教你C語言-P02.txt        ← 還在├── 浙江大學翁愷教你C語言-P03.txt        ← 還在└── urls.txt                             ← 還在

幾個G的空間瞬間釋放,美滋滋。


清理方式二:全部刪掉(用完即走)

文本也看過了,不需要了,全部清空:

rm *.wav *.txt

這會把目錄裏所有的 .wav 和 .txt 文件刪掉。如果你還想保留 urls.txt(連結列表),它不會被刪,因為它不是 .txt 結尾的……等等,它確實是 .txt 結尾的。所以它也會被刪。

😅 如果你想保留 urls.txt,先把它移走:

mv urls.txt ~/Desktop/rm *.wav *.txtmv ~/Desktop/urls.txt .

或者更簡單,直接刪整個目錄:

rm -rf ~/Desktop/bilibili-text

這會把整個 bilibili-text 文件夾連同裏面所有文件全部刪除,連文件夾本身都不留。下次需要時重新 mkdir 就行。


清理方式三:安全刪除(放進廢紙簍)

看到這裏,有些朋友可能開始慌了:**rm 命令刪除的文件能恢復嗎?**

答案是:不能。

rm 是"永久刪除",文件不會進廢紙簍,直接從磁盤上抹掉。就像把一張紙扔進了碎紙機,沒有回頭路。

如果你不太放心,想用更安全的方式——移到廢紙簍

mv *.wav ~/.Trash/

這樣 .wav 文件會乖乖躺進你的廢紙簍,30天內隨時可以恢復。萬一刪錯了也不慌。

💡 mv 是 "move"(移動)的縮寫,~/.Trash/ 就是 macOS 廢紙簍的路徑。所以這條命令的意思就是"把所有 wav 文件移到廢紙簍"。


清理方式四:邊轉寫邊刪除(高級玩家)

如果你要處理幾十上百個視頻,一個一個下載再轉寫,音頻文件會越積越多,磁盤可能撐不住。

這時候可以用一個自動化腳本,轉寫完一個就刪一個:

for f in *.wav; do  echo "正在轉寫: $f"  whisper "$f" --language zh --model small --output_format txt  echo "轉寫完成,刪除音頻: $f"  rm "$f"done

這段腳本做了什麼?

  1. 找到目錄裏所有的 .wav 文件
  2. 逐個送給 Whisper 轉寫
  3. 轉寫完立刻刪除對應的 .wav
  4. 繼續處理下一個

這樣你的磁盤裏同時最多隻有一個音頻文件,空間佔用降到最低。

⚠️ 複製粘貼時注意:fordodone 這些關鍵字要單獨一行,不能和別的代碼擠在一起。


實用小技巧

查看目錄佔了多少空間

不確定到底佔了多少?一條命令看清:

du -sh ~/Desktop/bilibili-text

輸出類似這樣:

1.2G    /Users/keyi/Desktop/bilibili-text

1.2G,難怪電腦變慢了。刪!

查看每個文件分別多大

ls -lh ~/Desktop/bilibili-text

輸出類似:

-rw-r--r--  1 keyi  staff   105M  4月 23 21:40  浙江大學翁愷教你C語言-P01.wav-rw-r--r--  1 keyi  staff    28K  4月 23 21:45  浙江大學翁愷教你C語言-P01.txt-rw-r--r--  1 keyi  staff   108M  4月 23 21:41  浙江大學翁愷教你C語言-P02.wav-rw-r--r--  1 keyi  staff    32K  4月 23 21:48  浙江大學翁愷教你C語言-P02.txt

一目瞭然,誰是空間殺手清清楚楚。

刪除前先"預演"

怕刪錯?先看看會刪掉哪些文件:

ls *.wav

確認都是你要刪的,再執行 rm *.wav


新手常見問題

Q1:rm 和 rm -rf 有什麼區別?

命令
作用
危險程度
rm *.wav
刪除當前目錄下所有 .wav 文件
⭐⭐
rm -rf 目錄名
刪除整個目錄及其所有內容
⭐⭐⭐⭐⭐

-r 是遞歸(連子目錄一起刪),-f 是強制(不問你就刪)。兩個加在一起就是"核彈級別"的刪除命令。

新手建議:儘量只用 rm *.wav 這種帶通配符的格式,避免用 rm -rf

Q2:我不小心刪錯了怎麼辦?

如果用的是 rm(永久刪除):很遺憾,常規手段無法恢復。可以試試數據恢復軟件如 Disk Drill,但不保證能找回。

如果用的是 mv(移到廢紙簍):打開廢紙簍,右鍵"放回原處"就行。

所以,不確定的時候,用 mv 移到廢紙簍,別用 rm

Q3:Whisper 下載的模型文件也要刪嗎?

Whisper 的模型文件緩存在 ~/.cache/whisper/ 目錄下,大概佔 500MB(small 模型)。

如果你以後不再用 Whisper 了,可以刪:

rm -rf ~/.cache/whisper

但如果你以後還打算用,建議留着——下次就不用重新下載了。

Q4:有沒有"一鍵清理全部"的命令?

有。如果你確定整個工作目錄都不需要了:

rm -rf ~/Desktop/bilibili-text

乾淨利落,連根拔起。


命令速查卡(清理篇)

你想做什麼
命令
只刪音頻,保留文本
rm *.wav
全部文件都刪
rm *.wav *.txt
安全刪除(可恢復)
mv *.wav ~/.Trash/
刪除整個工作目錄
rm -rf ~/Desktop/bilibili-text
邊轉寫邊刪除
用 for 循環腳本
查看空間佔用
du -sh ~/Desktop/bilibili-text
查看每個文件大小
ls -lh ~/Desktop/bilibili-text
刪除前預覽
ls *.wav

寫在最後

清理文件這件事,說到底就一句話:**.txt 留着,.wav 刪掉。**

文本文件幾 KB,音頻文件幾百 MB,這個賬誰都會算。

但我想強調一點:不確定的時候,用 mv 移到廢紙簍,別用 rm 終端不會問你"你確定嗎?",敲下回車就是執行,沒有撤銷鍵。

養成"先 ls 看一眼,再 rm 刪"的習慣,你就永遠不會誤刪。

好了,yt-dlp + Whisper 的完整流程——從安裝、下載、轉寫到清理,到這裏就全部講完了。你現在擁有了一條完整的視頻→文字→清理流水線。

去試試吧,你的B站收藏夾裏那些"下次一定看"的視頻,終於可以變成文字筆記了。😎


這是「yt-dlp + Whisper 系列」的第二篇。《第一篇《免費批量提取視頻文字?這兩個神仙工具你一定要知道》》請查看歷史文章。有問題歡迎評論區交流!