NotebookLM 的天花板和地板，都系在 Gemini 身上

作者：草莓派

日期：2026年5月15日下午8:32

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

NotebookLM嘅核心能力同限制都繫於Gemini模型，用時要控源、問法同人工核實

整理版摘要

呢排作者寫過兩篇NotebookLM文章，有讀者話可能係Gemini降智影響效果，亦有人覺得NotebookLM體驗唔錯。作者自己用咗好耐，始終覺得係個黑盒：到底用咩模型？幻覺率幾高？點樣降低？佢做咗啲調研，引用咗團隊負責人Steven Johnson嘅文章同相關論文，整理出以下見解。

NotebookLM唔係傳統RAG。團隊負責人話而家叫「source grounding」，因為佢唔似傳統RAG咁切塊向量化，而係靠Gemini超大上下文，盡量成份文檔塞入去，再生成答案兼掛引用。但文檔太多都係要檢索排序，只係Google冇公開細節。模型方面，唔係單一模型，而係按訂閲分級：免費版行Gemini 2.5 Flash，Pro版行2.5 Pro，Ultra版有Deep Think模式。2025年12月官方話切換到Gemini 3，但免費版好大機會都係Flash。

幻覺率方面，2025年論文《Not Wrong, But Untrue》測過NotebookLM幻覺率約13%，低過ChatGPT同Gemini嘅40%。作者自己實測，有時叫NotebookLM提取素材，大概十分一會張冠李戴或編出唔存在嘅場景。所以實際使用要控源（只放高質單一來源）、問法（問得越具體越好）、模型（有條件上Pro/Ultra）、同埋最終一定要人工點查引用核實。呢個先係NotebookLM最值錢嘅功能。

NotebookLM唔係傳統RAG，而係用Gemini大上下文嘅source grounding，減少分塊損失
模型按訂閲分級：免費Flash、Pro、Ultra Deep Think，效果差距好大
幻覺率論文話13%，作者實測約10%有誤，需要小心
降低幻覺最有效係控源：單一高質量來源，避免二次轉載或AI總結文本
提問要具體，約束模型逐字引用，最後一定人工點查原文核實

整理重點

NotebookLM嘅本質：唔係RAG，而係source grounding

Google NotebookLM團隊負責人Steven Johnson話，佢哋以前叫呢個做RAG，但而家改叫source grounding。原因係傳統RAG要切塊、做向量、存數據庫，再按相似度撈返最相關嘅幾段畀模型。但NotebookLM唔係咁玩，佢仗住Gemini超大上下文窗口，傾向將成份文檔塞入去——塞得落就盡量塞，然後叫模型生成答案兼掛引用號。

咁塞唔落點算？例如一次過掉幾十個大PDF入去，內部一定要做檢索排序，只係Google冇公開具體手法。呢個設計嘅好處係減少分塊帶嚟嘅語境斷裂，壞處就係依賴模型能力同上下文長度。

整理重點

背後嘅模型：唔係單一，而係按訂閲分級

好多人誤會NotebookLM用單一模型，其實佢係按訂閲檔分級路由：免費版主要行Gemini 2.5 Flash系列，響應快但上下文偏細、推理弱啲；Google AI Pro升級到2.5 Pro級別；Google AI Ultra就有Deep Think慢思考模式，每日配額更高。

2025年12月官方宣佈切換到Gemini 3，但冇講明係Pro定Flash。按慣例，免費檔好大機會都係Flash。所以同一個問題，免費用戶同Pro用戶拎到嘅答案可以差好遠，因為根本唔係同一個模型作答。

整理重點

幻覺率有幾高？論文13%，實測約十分之一

2025年論文《Not Wrong, But Untrue》測試文檔問答幻覺率：ChatGPT 40%、Gemini 40%、NotebookLM 13%。雖然樣本唔大（300份文檔、每個工具10-15個問答），但都顯示到區分度。

作者自己使用時，尤其係叫NotebookLM提取素材，有時答案帶引用但點入去會發現張冠李戴或編造唔存在嘅場景，大概十分一機會。所以幻覺問題真係存在，唔可以因為話「低」就唔理。

1 控源：一個Notebook只放高質量、版本明確、單一來源嘅素材，寧願少唔好多。唔好放入AI總結文本、機翻或二手轉載。
2 問法：問得越具體越好，例如「第3章對X嘅定義係咩？」好過「呢本書講咩？」。綜合問題要拆成子問題。用提示詞約束模型「僅基於原文逐字回答，唔好加評價、推斷或歸納」。
3 模型：有條件上Pro或Ultra，免費版2.5 Flash喺過度自信方面更嚴重。
4 複核：涉及數字、日期、人物對話一定要叫模型帶引用號，然後逐條點開核對。呢個係NotebookLM最值錢嘅功能，唔用就浪費。

整理重點

實際操作：將幻覺降到最低嘅四層防線

將幻覺降到最低，按效果排：源 > 問法 > 模型 > 複核。控源係最有效一環，確保素材來源單一、優質。對於大文檔，作者做法係先洗成乾淨Markdown再上傳，太大就切開。

問法方面，越具體嘅問題，模型越冇空間自由發揮。另外用提示詞約束佢「僅基於原文逐字回答」，堵死發揮嘅路。模型層面，免費版Flash確實更易出錯，有條件就升級。

上兩個禮拜寫過兩篇關於NotebookLM嘅文章（NotebookLM vs ima：試完3個真實場景，我改觀咗， NotebookLM真係零幻覺咩？一個被忽略嘅前提），有啲讀者留言話可能係近期Gemini嚴重降智，搞到NotebookLM嘅效果唔係好理想，仲有讀者話佢仍然覺得NotebookLM嘅體驗效果比較好。

我有啲困惑，用咗NotebookLM咁耐，仍然覺得佢係個黑盒：佢用嘅模型係乜？佢嘅幻覺率有冇一個大約嘅統計？實際用嗰陣點樣將幻覺率降到最低？

帶住呢啲問題，我做咗一啲調研同分析，喺呢度分享嚇。

NotebookLM 到底係咪 RAG？

Google 嘅 NotebookLM 團隊負責人 Steven Johnson 喺《Google Engineers Deliberately Avoid Calling NotebookLM “RAG”》呢篇文章入面話：「我哋以前叫佢 RAG，而家我哋叫佢 source grounding（源文本增強）。」

點解要換個講法呢？

睇下面呢張對比表（嚟自《Architecting the Future of Research: A Technical Deep-Dive into NotebookLM and Gemini Integration》）就明曬啦。

傳統 RAG 係點樣做嘢㗎？切塊、做向量、存數據庫，等你問問題嗰陣按相似度撈返最相關嗰幾段，再掉畀模型。

但 NotebookLM 唔係咁玩，佢靠住 Gemini 嘅超大上下文窗口，傾向於將你上傳嘅整份文檔塞入去——塞得落就儘量塞，再畀模型生成回答嘅同時掛上引用號。

咁塞唔落點算？例如你一嘢掉咗幾十個大 PDF 入去，佢內部肯定要做檢索同排序嘅，呢點走唔甩，只係 Google 冇公開具體點樣處理嘅。

NotebookLM 背後行嘅係邊個模型？

呢度要先糾正一個常見誤解：NotebookLM 唔係單一模型，而係按訂閲檔分級路由嘅。

免費版：主要行 Gemini 2.5 Flash 系列，反應快，但上下文窗口偏細，推理都弱啲

Google AI Pro：升級到 Gemini 2.5 Pro 級別

Google AI Ultra：包含 Deep Think 慢思考模式，每日配額亦更高

2025 年 12 月 19 日，NotebookLM 官方宣佈切換咗去 Gemini 3，但究竟係 Pro 定係 Flash 版，Google 冇明講，按慣例免費檔大概都會行 Flash 嗰條線。

同一個問題，免費用戶同 Pro 用戶拎到嘅答案可以差好遠，因為根本就唔係同一個模型喺度回答。

NotebookLM幻覺率到底有幾高

2025 年有一篇論文《Not Wrong, But Untrue: LLM Overconfidence in Document-Based Queries》專門測咗文檔問答嘅幻覺率，結果係：ChatGPT 40%，Gemini 40%，NotebookLM 13%。雖然呢個例子入面樣本唔大（300份文檔）、主題都單一（每個工具10-15個問答），但可以顯示到一啲區分度。

我自己喺用嘅過程中，有時將一份文檔掉畀NotebookLM，叫佢幫我提取素材，佢畀嘅素材有時雖然帶有引用，但㩒入去會發現佢會張冠李戴，或者作啲唔存在嘅場景，概率大概係十分之一。

實際用嗰陣點樣將幻覺降到最低

按效果排，大概係：源 > 問法 > 模型 > 複核。

先講控源，呢個係最有效嘅一環。

一個 Notebook 只放高質素、版本明確、來源單一嘅素材，寧願少都唔好多。

我試過將 AI 總結過嘅文本掉入去，結果幻覺明顯增多——機翻、自媒體二手轉載都係一樣，未經核實嘅內容入咗 Notebook 就係污染源。對於大文檔，我嘅做法係先洗成乾淨嘅 Markdown 再上傳，太大就切開先，幻覺會降低好多。

然後係問法。

「第 3 章對 X 嘅定義係乜」同「呢本書講乜」，前一個嘅回答會更準確。越具體嘅問題，模型越冇空間自由發揮。遇到綜合性嘅大問題，拆成幾個子問題逐個問。

另外，用提示詞約束佢「僅基於原文逐字回答，唔好添加任何評價、推斷或歸納」，相當於封死佢發揮嘅路。

凡是涉及數字、日期、人物對話，一定要佢帶引用號，然後逐條㩒開核對-----我就食過虧。

模型層面做到嘅有限，但差距確實存在。

有條件嘅話上 Pro 或 Ultra，免費版嘅 2.5 Flash 喺「過度自信」呢件事上確實更嚴重。

最後，當佢係研究助理就OK，佢嘅輸出唔好全部相信。真係要寫入自己作品或決策入面嘅句子，都㩒引用按鈕返去查一下原文。呢個功能其實係 NotebookLM 設計上最有價值嘅部分，唔用就浪費曬。

我自己嘅判斷

NotebookLM嘅天花板同地板都係喺 Gemini 身上。

Gemini 狀態好嘅時候，體驗確實比傳統 RAG 好一截；

Gemini 一旦降智或者轉咗模型版本，你嘅 Notebook 都跟住遭殃。

但基於對佢嘅信任，你甚至唔知道佢生成咗「不實信息」。

所以，最後一公里，仲係要靠人手核實。

多謝你睇到呢度，如果覺得有用，畀個關注，唔使迷路~

上兩週寫過兩篇關於NotebookLM的文章（NotebookLM vs ima：測完3個真實場景，我改觀了， NotebookLM真的零幻覺嗎？一個被忽略的前提），有些讀者留言說可能是近期Gemini嚴重降智，導致NotebookLM的效果不盡如人意，還有的讀者說他仍然覺得NotebookLM的體驗效果比較好。

我有點困惑，使用NotebookLM那麼久，仍然感覺它是個黑盒：它用的模型是什麼？它的幻覺率有沒有一個大概的統計？實際使用時如何把幻覺率降到最低？

帶着這些問題，我做了一些調研和分析，在這裏分享一下。

NotebookLM 到底是不是 RAG？

Google 的 NotebookLM 團隊負責人 Steven Johnson 在《Google Engineers Deliberately Avoid Calling NotebookLM “RAG”》這篇文章裏說："我們以前叫它 RAG，現在我們稱之為 source grounding（源文本增強）。"

為什麼要換個說法呢？

看下面這張對比表（來自《Architecting the Future of Research: A Technical Deep-Dive into NotebookLM and Gemini Integration》）就明白了。

傳統 RAG 是怎麼幹活的？切塊、做向量、存數據庫，等你問問題的時候按相似度撈回最相關的那幾段，再丟給模型。

但NotebookLM 不這麼玩，它仗着 Gemini 的超大上下文窗口，傾向於把你上傳的整份文檔塞進去——能塞下就儘量塞，再讓模型生成回答的同時掛上引用號。

那塞不下怎麼辦？比如你一口氣扔了幾十個大 PDF 進去，它內部肯定要做檢索和排序的，這點跑不掉，只是 Google 沒公開具體怎麼處理的。

NotebookLM 背後跑的是哪個模型？

這裏要先糾正一個常見誤解：NotebookLM 不是單一模型，而是按訂閲檔分級路由的。

免費版：主要走 Gemini 2.5 Flash 系列，響應快，但上下文窗口偏小，推理也弱一些

Google AI Pro：升級到 Gemini 2.5 Pro 級別

Google AI Ultra：含 Deep Think 慢思考模式，每日配額也更高

2025 年 12 月 19 日，NotebookLM 官方宣佈切換到了 Gemini 3，但究竟是 Pro 還是 Flash 版， Google 沒明說，按慣例免費檔大概率走 Flash 那條線。

同一個問題，免費用戶和 Pro 用戶拿到的答案可以差很遠，因為壓根不是同一個模型在回答。

NotebookLM幻覺率到底有多高

2025 年有一篇論文《Not Wrong, But Untrue: LLM Overconfidence in Document-Based Queries》專門測了文檔問答的幻覺率，結果是：ChatGPT 40%，Gemini 40%，NotebookLM 13%。雖然這個例子裏樣本不大（300份文檔）、主題也單一（每個工具10-15個問答），但可以表明一些區分度。

我自己在使用的過程中，有時把一份文檔丟給NotebookLM，讓它幫我提取素材，它給的素材有時雖然帶有引用，但點進去會發現它會張冠李戴，或是編出不存在的場景，概率大概是十分之一。

實際使用時怎麼把幻覺降到最低

按效果排，大概是：源 > 問法 > 模型 > 複核。

先說控源，這是最有效的一環。

一個 Notebook 只放高質量、版本明確、來源單一的素材，寧願少也不要多。

我試過把 AI 總結過的文本丟進去，結果幻覺明顯增多——機翻、自媒體二手轉載也是同理，未經核實的內容進了 Notebook 就是污染源。對於大文檔，我的做法是先洗成乾淨的 Markdown 再上傳，太大就先切分，幻覺會降不少。

然後是問法。

"第 3 章對 X 的定義是什麼"和"這本書講什麼"，前者的回答會更準確。越具體的問題，模型越沒有空間自由發揮。遇到綜合性的大問題，拆成幾個子問題逐個問。

另外，用提示詞約束它"僅基於原文逐字回答，不要添加任何評價、推斷或歸納"，相當於堵死它發揮的路。

凡是涉及數字、日期、人物對話，務必讓它帶引用號，然後逐條點開核對-----我就吃過虧。

模型層面能做的有限，但差距確實存在。

有條件的話上 Pro 或 Ultra，免費版的 2.5 Flash 在"過度自信"這件事上確實更嚴重。

最後，把它當研究助理就好，它的輸出不要全信。真要寫進自己作品或決策裏的句子，都點引用按鈕回查一下原文。這個功能其實是 NotebookLM 設計上最值錢的部分，不用就浪費了。

我自己的判斷

NotebookLM的天花板和地板都系在 Gemini 身上。

Gemini 狀態好的時候，體驗確實比傳統 RAG 好一截；

Gemini 一旦降智或者切了模型版本，你的 Notebook 也跟着遭殃。

但基於對它的信任，你甚至不知道它生成了“不實信息”。

所以，最後一公里，還是得人工核實。

謝謝你看到這裏，如果覺得有用，點個關注，不迷路~