磁盤空間告急?yt-dlp + Whisper 產出的文件清理指南
整理版優先睇
使用 yt-dlp + Whisper 後嘅文件清理:.wav 係大户,.txt 可以留,記住 mv 代替 rm 先安全
呢篇文章係「yt-dlp + Whisper 系列」嘅第二篇,作者先講咗系列第一篇教大家用呢兩個工具批量下載 B 站影片並轉成文字,但之後就發現 .wav 音頻文件大到離譜,50 集課程可以食 5GB 空間。為咗解決呢個問題,作者用自身經驗寫咗呢篇清理指南,目標係教人安全噉清理大型音頻文件,保留有用嘅文字筆記。整體結論好明確:.txt 留低,.wav 刪走,但刪之前最好用 mv 移入廢紙簍,避免 rm 永久刪除後冇得救。
文章開頭先點出工作目錄入面邊啲文件最食位:.wav 每個成 100MB,.txt 得幾十 KB,所以清理核心就係消滅 .wav。然後作者介紹幾種清理方法,由最基本嘅 rm *.wav 到全部清空、安全移到廢紙簍,再到用 for 循環邊轉寫邊刪,適合唔同需要。最後仲有實用小技巧,例如用 du -sh 睇目錄大小、ls -lh 睇每個文件大細、刪除前用 ls 預覽,撈埋常見問題解答,包括 rm 同 rm -rf 嘅分別、唔小心刪錯點算、Whisper 模型文件要唔要刪等。成篇文結構清晰,係實用型教學,適合用過 yt-dlp + Whisper 之後想清理空間嘅用戶。
- 清理核心:.wav 佔幾百 MB,.txt 僅幾十 KB,所以只刪音頻、保留文字最常見。
- 最常用方法:rm *.wav 一條命令刪走所有音頻,即時釋放幾個 GB 空間。
- 安全做法:用 mv *.wav ~/.Trash/ 將文件移入廢紙簍,30 日內可恢復,避免 rm 永久刪除。
- 高級玩法:用 for 循環腳本邊轉寫邊刪除,同一時間磁盤只有一個音頻文件。
- 習慣養成:刪除前先用 ls *.wav 預覽,確認無誤先執行 rm,避免誤刪。
文件清理命令速查卡(清理篇)
只刪音頻保留文本:rm *.wav 全部文件都刪:rm *.wav *.txt 安全刪除(可恢復):mv *.wav ~/.Trash/ 刪除整個工作目錄:rm -rf ~/Desktop/bilibili-text 邊轉寫邊刪除:用 for 循環腳本 查看空間佔用:du -sh ~/Desktop/bilibili-text 查看每個文件大小:ls -lh ~/Desktop/bilibili-text 刪除前預覽:ls *.wav
先搞清楚:邊啲文件係空間殺手?
用 yt-dlp + Whisper 完成批量提取之後,工作目錄 ~/Desktop/bilibili-text 入面會有 .wav 音頻同 .txt 文字檔。.wav 每一集大概 100MB,50 集就食 5GB;.txt 每集得幾十 KB,全部加埋都唔夠 2MB。
.wav 係空間大户,.txt 細到可以忽略
所以清理嘅核心思路好簡單:消滅 .wav,保留 .txt。
四種清理方法,由基本到高階
如果你確定文字都唔需要,可以用 rm *.wav *.txt 全部刪走。但要留意 urls.txt 都係 .txt 結尾,會一併消失;可以先用 mv 搬走再刪。
rm 係永久刪除,唔會入廢紙簍
想安全啲,就用 mv *.wav ~/.Trash/ 將音頻移入廢紙簍,30 日內隨時復原。高級玩家可以寫個 for 循環,每轉寫完一個音頻即刻刪除,慳到盡。
for f in *.wav; do
echo "正在轉寫: $f"
whisper "$f" --language zh --model small --output_format txt
echo "轉寫完成,刪除音頻: $f"
rm "$f"
done
實用小技巧:睇清空間、預演刪除
先 ls 再 rm,養成習慣就唔怕誤刪
常見問題:rm 同 rm -rf 嘅分別係 -r 遞迴、-f 強制,合埋就係核彈級刪除,新手唔好亂用。唔小心 rm 錯咗,常規手段好難救;用 mv 就安心好多。Whisper 模型文件喺 ~/.cache/whisper/,以後唔用可以刪,但建議留低免得重新下載。
《上篇》教咗你用 yt-dlp + Whisper 批量提取 B站 視頻文字。但問題嚟啦——嗰啲
.wav音頻文件,一個個肥到似豬咁,50集課程可以食咗你十幾個G。呢篇續集,一步步教你安全清理,唔會錯刪、唔會中伏。
先搞清楚:邊啲文件佔空間?
上篇我哋行完個流程之後,工作目錄 ~/Desktop/bilibili-text 裏面大概會留低呢啲嘢:
嚟,計條數:
結論好明顯:.wav 係空間大户,.txt 細到可以忽略。
所以清理嘅核心思路就係:**將 .wav 幹掉,.txt 留低。 *
清理方式一:淨係刪音頻,保留文本(最常用)
呢個係最常見嘅需求——文字已經提取咗出嚟,音頻冇用了,但係文本仲想留低以後翻睇。
就呢三個字母加一個星號同一個點,搞掂。
執行之後你嘅目錄就會變成咁:
幾個G嘅空間即刻釋放出嚟,爽歪歪。
清理方式二:全部刪曬(用完即走)
文本都睇過咗,唔需要啦,全部清空:
呢個會將目錄入面所有嘅 .wav 和 .txt 文件刪曬。如果你仲想保留 urls.txt(連結列表),佢唔會被刪,因為佢唔係 .txt 結尾嘅……等等,佢的確係 .txt 結尾嘅。所以佢都會被刪。
😅 如果你想保留
urls.txt,首先將佢搬走:
或者更簡單,直接刪曬成個目錄:
呢個會將成個 bilibili-text 資料夾連同入面所有文件全部刪曬,連資料夾本身都唔留。下次需要嗰陣重新 mkdir 就行。
清理方式三:安全刪除(放入垃圾桶)
睇到呢度,有啲朋友可能開始慌:**rm 指令刪除嘅文件可唔可以復原?**
答案係:不能。
rm 係『永久刪除』,文件唔會入垃圾桶,直接喺磁盤上面剷走。就好似將一張紙掉咗入碎紙機,冇回頭路。
如果你唔係咁放心,想用更安全嘅方式——移到垃圾桶:
這樣 .wav 文件會乖乖咁入咗你嘅垃圾桶,30日之內隨時可以復原。萬一刪錯咗都唔使慌。
💡
mv係『move』(移動)嘅縮寫,~/.Trash/就係 macOS 垃圾桶嘅路徑。所以呢條指令嘅意思就係『將所有 wav 文件移到垃圾桶』。
清理方式四:一邊轉寫一邊刪除(高級玩家)
如果你要處理幾十上百個視頻,逐個下載再轉寫,音頻文件會越積越多,磁盤可能頂唔順。
呢個時候可以用一個自動化腳本,轉寫完一個就刪一個:
呢段腳本做咗啲咩?
揾到目錄入面所有嘅 .wav 文件 逐個送俾 Whisper 轉寫 轉寫完即刻刪除對應嘅 .wav 繼續處理下一個
咁樣你嘅磁盤入面同時最多得一個音頻文件,空間佔用降到最低。
⚠️ 複製貼上嗰陣注意:
for、do、done呢啲關鍵字要單獨一行,唔可以同其他代碼迫埋一齊。
實用小技巧
睇下目錄佔咗幾多空間
唔確定到底佔咗幾多?一條指令睇清楚:
輸出類似咁:
1.2G,難怪電腦慢咗。刪!
睇下每個文件分別有幾大
輸出類似:
一目瞭然,邊個係空間殺手清清楚楚。
刪除之前先『預演』
怕刪錯?先睇下會刪咗邊啲文件:
確認全部都係你要刪嘅,再執行 rm *.wav。
新手常見問題
Q1:rm 和 rm -rf 有咩分別?
-r 係遞歸(連子目錄一齊刪),-f 係強制(唔問你就刪)。兩個加埋一齊就係『核彈級別』嘅刪除指令。
新手建議:盡量淨係用 rm *.wav 呢種帶通配符嘅格式,避免用 rm -rf。
Q2:我唔小心刪錯咗點算?
如果係用 rm(永久刪除):好遺憾,常規手段冇辦法復原。可以試下數據恢復軟件例如 Disk Drill,但唔保證可以揾得返。
如果係用 mv(移到垃圾桶):打開垃圾桶,right click『放回原位』就得。
所以,唔確定嘅時候,用 mv 移到垃圾桶,唔好用 rm。
Q3:Whisper 下載嘅模型文件都要刪咩?
Whisper 嘅模型文件緩存喺 ~/.cache/whisper/ 目錄入面,大概佔 500MB(small 模型)。
如果你以後唔再用 Whisper 啦,可以刪:
但如果你以後仲打算用,建議留低——下次就唔使重新下載啦。
Q4:有冇『一鍵清理全部』嘅指令?
有。如果你確定成個工作目錄都唔需要啦:
乾淨利落,連根拔起。
指令速查卡(清理篇)
寫喺最後
清理文件呢件事,講到尾就一句話:**.txt 留着,.wav 刪曬。**
文本文件幾 KB,音頻文件幾百 MB,呢條數邊個都識計。
但我想強調一點:唔確定嘅時候,用 mv 移到垃圾桶,唔好用 rm。 終端唔會問你『你確定嗎?』,撳下 Enter 就係執行,冇撤銷鍵。
養成『先 ls 睇一眼,再 rm 刪』嘅習慣,你就永遠唔會錯刪。
好啦,yt-dlp + Whisper 嘅完整流程——由安裝、下載、轉寫到清理,到呢度就全部講曬啦。你而家擁有咗一條完整嘅視頻→文字→清理流水線。
去試下啦,你嘅B站收藏夾入面嗰啲『下次一定睇』嘅視頻,終於可以變成文字筆記啦。😎
呢個係『yt-dlp + Whisper 系列』嘅第二篇。《第一篇:免費批量提取視頻文字?呢兩個神仙工具你一定要知》請睇返歷史文章。有問題歡迎喺評論區交流!
《上一篇》教了你用 yt-dlp + Whisper 批量提取B站視頻文字。但問題來了——那些
.wav音頻文件,一個個肥得跟豬一樣,50集課程能吃掉你十幾個G。這篇續集,手把手教你安全清理,不誤刪、不踩坑。
先搞清楚:哪些文件佔空間?
上篇我們跑完整個流程後,工作目錄 ~/Desktop/bilibili-text 裏大概會留下這些東西:
來,算一筆賬:
結論很明顯:.wav 是空間大户,.txt 小到可以忽略。
所以清理的核心思路就是:**把 .wav 幹掉,.txt 留着。 *
清理方式一:只刪音頻,保留文本(最常用)
這是最常見的需求——文字已經提取出來了,音頻沒用了,但文本還想留着以後翻看。
就這三個字母加一個星號和一個點,完事。
執行後你的目錄就變成了:
幾個G的空間瞬間釋放,美滋滋。
清理方式二:全部刪掉(用完即走)
文本也看過了,不需要了,全部清空:
這會把目錄裏所有的 .wav 和 .txt 文件刪掉。如果你還想保留 urls.txt(連結列表),它不會被刪,因為它不是 .txt 結尾的……等等,它確實是 .txt 結尾的。所以它也會被刪。
😅 如果你想保留
urls.txt,先把它移走:
或者更簡單,直接刪整個目錄:
這會把整個 bilibili-text 文件夾連同裏面所有文件全部刪除,連文件夾本身都不留。下次需要時重新 mkdir 就行。
清理方式三:安全刪除(放進廢紙簍)
看到這裏,有些朋友可能開始慌了:**rm 命令刪除的文件能恢復嗎?**
答案是:不能。
rm 是"永久刪除",文件不會進廢紙簍,直接從磁盤上抹掉。就像把一張紙扔進了碎紙機,沒有回頭路。
如果你不太放心,想用更安全的方式——移到廢紙簍:
這樣 .wav 文件會乖乖躺進你的廢紙簍,30天內隨時可以恢復。萬一刪錯了也不慌。
💡
mv是 "move"(移動)的縮寫,~/.Trash/就是 macOS 廢紙簍的路徑。所以這條命令的意思就是"把所有 wav 文件移到廢紙簍"。
清理方式四:邊轉寫邊刪除(高級玩家)
如果你要處理幾十上百個視頻,一個一個下載再轉寫,音頻文件會越積越多,磁盤可能撐不住。
這時候可以用一個自動化腳本,轉寫完一個就刪一個:
這段腳本做了什麼?
找到目錄裏所有的 .wav 文件 逐個送給 Whisper 轉寫 轉寫完立刻刪除對應的 .wav 繼續處理下一個
這樣你的磁盤裏同時最多隻有一個音頻文件,空間佔用降到最低。
⚠️ 複製粘貼時注意:
for、do、done這些關鍵字要單獨一行,不能和別的代碼擠在一起。
實用小技巧
查看目錄佔了多少空間
不確定到底佔了多少?一條命令看清:
輸出類似這樣:
1.2G,難怪電腦變慢了。刪!
查看每個文件分別多大
輸出類似:
一目瞭然,誰是空間殺手清清楚楚。
刪除前先"預演"
怕刪錯?先看看會刪掉哪些文件:
確認都是你要刪的,再執行 rm *.wav。
新手常見問題
Q1:rm 和 rm -rf 有什麼區別?
-r 是遞歸(連子目錄一起刪),-f 是強制(不問你就刪)。兩個加在一起就是"核彈級別"的刪除命令。
新手建議:儘量只用 rm *.wav 這種帶通配符的格式,避免用 rm -rf。
Q2:我不小心刪錯了怎麼辦?
如果用的是 rm(永久刪除):很遺憾,常規手段無法恢復。可以試試數據恢復軟件如 Disk Drill,但不保證能找回。
如果用的是 mv(移到廢紙簍):打開廢紙簍,右鍵"放回原處"就行。
所以,不確定的時候,用 mv 移到廢紙簍,別用 rm。
Q3:Whisper 下載的模型文件也要刪嗎?
Whisper 的模型文件緩存在 ~/.cache/whisper/ 目錄下,大概佔 500MB(small 模型)。
如果你以後不再用 Whisper 了,可以刪:
但如果你以後還打算用,建議留着——下次就不用重新下載了。
Q4:有沒有"一鍵清理全部"的命令?
有。如果你確定整個工作目錄都不需要了:
乾淨利落,連根拔起。
命令速查卡(清理篇)
寫在最後
清理文件這件事,說到底就一句話:**.txt 留着,.wav 刪掉。**
文本文件幾 KB,音頻文件幾百 MB,這個賬誰都會算。
但我想強調一點:不確定的時候,用 mv 移到廢紙簍,別用 rm。 終端不會問你"你確定嗎?",敲下回車就是執行,沒有撤銷鍵。
養成"先 ls 看一眼,再 rm 刪"的習慣,你就永遠不會誤刪。
好了,yt-dlp + Whisper 的完整流程——從安裝、下載、轉寫到清理,到這裏就全部講完了。你現在擁有了一條完整的視頻→文字→清理流水線。
去試試吧,你的B站收藏夾裏那些"下次一定看"的視頻,終於可以變成文字筆記了。😎
這是「yt-dlp + Whisper 系列」的第二篇。《第一篇《免費批量提取視頻文字?這兩個神仙工具你一定要知道》》請查看歷史文章。有問題歡迎評論區交流!