豆包都要收費了，是時候盤點一下本地大模型部署方案了

作者：惡人筆記

日期：2026年5月5日下午11:11

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

本地大模型部署方案：從Ollama + Qwen3.5入手，平衡隱私、成本與控制

整理版摘要

前排豆包推出付費版，意味住AI全民付費時代到咗。作者認為雖然雲端服務好方便，但隨住收費同私隱憂慮，本地部署方案其實已經好成熟：開源模型性能逼近閉源，部署工具一鍵化，消費級硬件都跑到實用效果。呢篇文章會幫你梳理最適合本地跑嘅模型、推薦方案同選型分析。

目前本地部署嘅優勢包括：數據唔出設備，私隱有保障；一次性硬件投入，後續零API費用；MoE架構同量化技術讓7B-72B模型喺消費級GPU上達到30-100+tokens/s；生態完善，支援RAG、多模態同Agent工具鏈。當然，超大上下文或極致前沿能力仍然要靠雲端補充，硬件投入亦係門檻，但對個人同中小企業嚟講，性價比已經好高。

作者嘅整體結論係：本地大模型已經唔係玩具，而係可信賴嘅生產力工具。建議由Ollama加上Qwen3.5 7B或27B開始，跑通第一個RAG項目，再根據實際需求升級。唔好追求最大最新，先求夠用穩定。

本地部署時機成熟，係隱私、成本與控制之間嘅平衡選擇，尤其適合個人同中小企業。
由Ollama + Qwen3.5 7B或27B入門，根據硬件選擇量化版本，即可快速體驗。
一次性硬件投入後零API費用，重度用戶1-2年回本，輕度用戶混合使用更靈活。
本地模型已可勝任日常對話、代碼輔助、簡單RAG，但超大上下文仍需雲端輔助。
即刻下載Ollama，跑通第一個RAG項目，感受本地可控嘅樂趣，再逐步升級。

整理重點

點解而家係本地部署嘅好時機？

豆包收費唔係壞事，反而提醒我哋：AI服務終究要商業化，與其每個月俾API費用，不如諗諗本地部署。而家開源模型進步好快，數據唔出設備，私隱有保障，而且一次性硬件投入後續零API費用，長期嚟講好抵。

性能方面，MoE架構同量化技術已經令7B-72B模型喺消費級GPU上達到30-100+tokens/s，體驗唔錯。生態亦好成熟，支援RAG、多模態同Agent工具鏈，唔使驚冇得用。

整理重點

最適合你嘅本地模型推薦

冇「絕對最好」嘅模型，只有「最適合你硬件同場景」嘅模型。按VRAM分三個層級推薦：

1 入門級（8-16GB VRAM）：Qwen3.5 7B-14B（中文、代碼強）、Llama 3.3 8B（生態好）、Phi-4-mini（快但能力有限）。量化後體積細、速度快，適合日常聊天同簡單代碼輔助。
2 甜點級（16-32GB VRAM，主流推薦）：Qwen3.5 27B-35B（MoE版本）、DeepSeek R1/V3.2（數學/邏輯突出）、Llama 3.3 27B-70B量化版。24GB VRAM流暢，支援長上下文同RAG，質量接近雲端中檔模型。
3 進階級（40GB+ VRAM）：Qwen3.5 70B+、GLM-5系列、Llama 3.3 70B。適合企業級私有化，Agent能力更強。超大模型（405B）本地唔建議，性價比低。

選型貼士：重中文/代碼優先Qwen/DeepSeek；通用+生態揀Llama/Gemma；創意寫作試微調版；多模態睇Qwen VL。記住：基準測試只供參考，用真實環境試2-3個模型最實際。

整理重點

成熟部署方案：Ollama、LM Studio、vLLM

現時部署工具已經好友好，新手10分鐘就可以上手。以下係幾個主流方案：

Ollama：一鍵安裝，支援 Win/Mac/Linux，命令 ollama run qwen3.5 即可運行。內置OpenAI兼容API</highlight-inline>，Model Library豐富，可自定義Modelfile。搭配 Open WebUI（網頁聊天界面）同 AnythingLLM（RAG知識庫）就搞掂。
LM Studio：圖形界面，直觀下載 Hugging Face 模型，支援GGUF量化</highlight-inline>，聊天界面靚。適合非技術用戶快速試模型。
vLLM / TensorRT-LLM：高併發、吞吐優化，適合服務器多用戶；llama.cpp：極致輕量，支援CPU/GPU混合；Mac用戶用 MLX 或 Ollama（MLX後端）體驗佳。

簡單安裝流程（以Ollama為例）：官網下載安裝，命令行 ollama pull qwen3.5:27b（揀量化版本），最後瀏覽器訪問 Open WebUI 或用 API 集成。

整理重點

硬件選擇同成本分析

核心係顯存（VRAM），帶寬比核心數更重要</highlight-inline>。NVIDIA CUDA生態最好，AMD同Apple都有唔錯支援。甜點配置：RTX 4090/5090（24-32GB）</highlight-inline> + 64GB RAM + 高速SSD，總成本約1-2萬RMB就有實用效果。

Mac方案：M4 Max/Studio（64-128GB統一內存），即插即用、功耗低，但價錢較高。擴展方面，多卡或CPU卸載可降低門檻，但會犧牲速度。

同雲端API對比：重度使用1-2年回本</highlight-inline>；輕度使用雲端更靈活。混合使用係最理性選擇</highlight-inline>。避坑提醒：量化會略降質素（Q4/Q5通常可接受）；長上下文食顯存；驅動兼容性問題揀主流工具可避；功耗散熱要留意，尤其GPU方案。

前日見到豆包推出咗付費版本，雖然仲有免費版，但對呢個月活突破2.27億、30天用戶留存率達到44%嘅國產AI「國民級App」嚟講，呢個動作已經意味住AI全民付費時代嘅到來。規模越大，成本越高，如果國產AI都唔收費，揾咩嚟燒錢追ChatGPT呢？

亦都係有呢啲AI大佬嘅免費午餐，過去幾年，雲端大模型確實用得爽。但隨住收費時代嘅到來，私隱擔憂、費用持續，以及網絡延遲總令人唔安。與此同時，各種本地部署已經非常成熟：開源模型性能逼近甚至喺某啲場景超越閉源雲服務，部署工具一鍵化，普通消費級硬件就已經跑得出實用效果。

今日我哋就從實際可用性出發，幫你梳理目前最適合本地跑嘅模型、推薦方案，以及選型分析。

一、點解而家係本地部署嘅好時機？

• 私隱同數據安全：本地運行，數據唔出設備，尤其適合企業內部知識庫、個人敏感信息處理。
• 成本可控：一次性硬件投入，後續零API費用，而且量化技術令大模型「瘦身」之後性能損失可控。
• 性能成熟：MoE（混合專家）架構、優秀量化（例如 GGUF Q4/Q5/Q8）已經令7B-72B模型喺消費級GPU上響應速度可以達到30-100+tokens/s。
• 生態完善：支援RAG（知識庫）、多模態、Agent嘅工具鏈已經好完整。

當然，本地大模型仲未能完全適用：超大上下文或極致前沿能力仍然需要雲端補充；硬件投入係門檻。不過對大多數個人同中小企業嚟講，而家性價比已經好高。

二、目前最適合本地部署嘅模型推薦

冇「絕對最好」嘅模型，只有「最適合你嘅硬件同場景」。按硬件層級同用途分層推薦（基於當前社區反饋同實際跑分）。

◆ 1. 入門級（8-16GB VRAM/統一內存，筆記本/入門桌上型電腦）

• Qwen3/Qwen3.5系列 7B-14B：多語言（尤其係中文）強，代碼、通用對話均衡。性價比之王。
• Llama3.3/Gemma3/4系列 8B：Meta/Google出品，生態最好，通用能力強。
• Phi-4-mini或類似小模型：8GB機器唯一實用選擇，速度快但能力有限。

推薦理由：呢啲模型量化之後體積細、速度快，日常傾偈、簡單代碼輔助夠用。入門者可以從呢度開始，避免挫敗感。

◆ 2. 甜點級（16-32GB VRAM，主流推薦）

• Qwen3.5/Qwen3.6 27B-35B（MoE版本更優）：中文、代碼、推理綜合最強之一，社區呼聲亦都好高。
• DeepSeek R1/V3.2 系列：數學、代碼、邏輯推理突出，MoE架構效率高。
• Gemma 4或Llama 3.3 27B-70B 量化版：平衡型選手。

點解叫甜點？ 24GB VRAM（例如RTX 4090/5090或Mac 64GB+）可以跑得流暢，支援較長上下文 + RAG知識庫，質量接近雲端中檔模型。目前多數人停喺呢個層級就夠曬。

◆ 3. 進階級（40GB+ VRAM，多卡或高端工作站/Mac Studio）

• Qwen3.5 70B+、GLM-5系列、Kimi K2.5/MiniMax蒸餾版：Agentic（智能體）能力、長上下文、複雜推理更強。
• Llama 3.3 70B：目前生態成熟，適合企業級私有化。

超大模型（例如405B）：呢個級別目前本地都可行，但唔推薦。除非有8張H100/A100級別硬件，否則量化之後速度慢、性價比低，呢個量級更適合雲端實驗。

選型建議：

• 重中文/代碼 → 優先Qwen/DeepSeek。
• 通用 + 生態 → Llama/Gemma。
• 創意寫作 → 試試特定微調版嘅各種模型。
• 多模態（圖文） → 可以睇嚇Qwen VL或對應視覺版本嘅模型。

提醒：目前網絡上嘅各種基準測試數據僅供參考，用你嘅真實環境數據測試2-3個模型最實際。而且模型迭代非常快，每隔幾個月就有可能出現新王者。

三、推薦嘅成熟部署方案

目前嘅本地部署工具已經非常友好，新手10分鐘就可以上手。

◆ 個人/輕量首選：Ollama

• 優點：一鍵安裝（支援 Win/Mac/Linux），ollama run qwen3.5 即可運行；內置OpenAI兼容API；Model Library豐富；支援 Modelfile自定義。
• 搭配：Open WebUI（網頁傾偈界面，似ChatGPT）+ AnythingLLM（RAG知識庫）。
• 適合：開發者、日常使用。社區最大，相關問題好解決。

◆ GUI友好型：LM Studio

• 優點：圖形界面，可以直觀搜索/下載Hugging Face模型；傾偈界面靚；支援GGUF量化。
• 適合：非技術用戶或想快速試模型嘅人。亦可結合Ollama後端。

◆ 企業/生產級：

• vLLM/TensorRT-LLM：高併發、吞吐優化，適合服務器多用戶。
• llama.cpp：極致輕量，支援CPU/GPU混合，資源受限設備嘅首選工具方案。
• Docker + Open WebUI：標準化部署，便於管理。

Mac用戶：oMLX或Ollama（MLX後端）可以利用Mac嘅統一內存優勢，體驗極佳。

簡單安裝流程（以Ollama為例）：

1. 官網下載安裝Ollama。
2. 命令行運行 ollama pull qwen3.5:27b（選量化版本）。
3. 最後瀏覽器訪問Open WebUI端口或直接用API集成到代碼中。

四、硬件與成本分析

• 核心係顯存（VRAM）：帶寬比核心數更重要。NVIDIA CUDA生態最好，AMD/Apple都有唔錯嘅環境支援。
• 甜點配置：RTX 4090/5090（24-32GB）+ 64GB系統RAM + 高速SSD。目前總成本1-2萬人民幣估計就可以出實用效果。
• Mac方案：M4 Max/Studio（64-128GB統一內存），即插即用，功耗低，但價格都較高。
• 擴展：多卡、CPU卸載等方案可降低門檻，但亦會犧牲速度。

同雲端API嘅成本對比：重度使用（每日數萬tokens）本地1-2年回本；輕度使用則雲端更靈活。混合使用（本地為主，雲端輔助）係目前大多數場景嘅最理性選擇。

潛在侷限同避坑指南：

• 量化會略降模型質量（Q4/Q5通常可接受）。
• 長上下文消耗顯存多，可以根據場景提前做好工作流規劃。
• 驅動/兼容性問題：選主流工具可避坑。
• 功耗同散熱：高負載下需要留意，尤其係GPU方案，Mac方案相對較好。

最後：從「嚐鮮」到「生產力工具」

而家嘅本地大模型已經唔係嚐鮮玩具，而係可信賴嘅生產力替換工具。佢可以俾你本地嘅完全控制權、私隱保障同定製自由，不過亦要求你投入時間學習同硬件成本。

我嘅建議係從Ollama + Qwen3.5 7B/27B開始，跑通你嘅第一個RAG項目，感受本地可控大模型嘅樂趣。再根據實際需求升級。唔好追求最大最新，先求「夠用且穩定」。

本地部署唔係為咗完全取代雲端，而係多一種強大選擇。喺私隱、成本、控制三者之間揾到平衡，你先會發現AI真正屬於自己。

歡迎評論區分享你嘅硬件同模型體驗，一齊交流！如果需要具體安裝教程或模型對比，留言話俾我知，下篇繼續深挖。

參考資料：Hugging Face、Ollama官網、r/LocalLLaMA社區、相關技術博客等。

（本文基於2026年5月公開信息整理，AI領域迭代快，建議結合官方同社區最新動態驗證。）

前天看到豆包推出了付費版本，雖然依然有免費版，但對於這個月活突破2.27億、30天用戶留存率達到44%的國產AI“國民級App”來說，這個動作已經意味着AI全民付費時代的到來了。規模越大，成本越高，如果國產AI都不收費，拿什麼燒錢追ChatGPT呢？

也正是有這些AI大長的免費午餐，過去幾年，雲端大模型確實用得爽。但隨着收費時代的到來，隱私擔憂、費用持續，以及網絡延遲總讓人不安。與此同時，各種本地部署已經非常成熟：開源模型性能逼近甚至在某些場景超越閉源雲服務，部署工具一鍵化，普通消費級硬件就能跑出實用效果。

今天我們就從實際可用性出發，幫你梳理目前最適合本地跑的模型、推薦方案，以及選型分析。

一、為什麼現在是本地部署的好時機？

• 隱私與數據安全：本地運行，數據不出設備，尤其適合企業內部知識庫、個人敏感信息處理。
• 成本可控：一次性硬件投入，後續零API費用，而且量化技術讓大模型“瘦身”後性能損失可控。
• 性能成熟：MoE（混合專家）架構、優秀量化（如 GGUF Q4/Q5/Q8）已經讓7B-72B模型在消費級GPU上響應速度可達30-100+tokens/s。
• 生態完善：支持RAG（知識庫）、多模態、Agent的工具鏈已很完整。

當然，本地大模型還不能完全適用：超大上下文或極致前沿能力仍需雲端補充；硬件投入是門檻。不過對大多數個人和中小企業來說，目前性價比已經很高。

二、目前最適合本地部署的模型推薦

沒有“絕對最好”的模型，只有“最適合你的硬件和場景”。按硬件層級和用途分層推薦（基於當前社區反饋和實際跑分）。

◆ 1. 入門級（8-16GBVRAM/統一內存，筆記本/入門台式機）

• Qwen3/Qwen3.5系列 7B-14B：多語言（尤其是中文）強，代碼、通用對話均衡。性價比之王。
• Llama3.3/Gemma3/4系列 8B：Meta/Google出品，生態最好，通用能力強。
• Phi-4-mini或類似小模型：8GB機器唯一實用選擇，速度快但能力有限。

推薦理由：這些模型量化後體積小、速度快，日常聊天、簡單代碼輔助夠用。入門者可以從這裏開始，避免挫敗感。

◆ 2. 甜點級（16-32GBVRAM，主流推薦）

• Qwen3.5/Qwen3.6 27B-35B（MoE版本更優）：中文、代碼、推理綜合最強之一，社區呼聲也很高。
• DeepSeek R1/V3.2 系列：數學、代碼、邏輯推理突出，MoE架構效率高。
• Gemma 4或Llama 3.3 27B-70B 量化版：平衡型選手。

為什麼甜點？ 24GB VRAM（如RTX 4090/5090或Mac 64GB+）能跑得流暢，支持較長上下文 + RAG知識庫，質量接近雲端中檔模型。目前多數人停在這個層級就夠了。

◆ 3. 進階級（40GB+VRAM，多卡或高端工作站/Mac Studio）

• Qwen3.5 70B+、GLM-5系列、Kimi K2.5/MiniMax蒸餾版：Agentic（智能體）能力、長上下文、複雜推理更強。
• Llama 3.3 70B：目前生態成熟，適合企業級私有化。

超大模型（如405B）：這個級別目前本地也可行，但不推薦。除非有8張H100/A100級別硬件，否則量化後速度慢、性價比低，這個量級更適合雲端實驗。

選型建議：

• 重中文/代碼 → 優先Qwen/DeepSeek。
• 通用 + 生態 → Llama/Gemma。
• 創意寫作 → 試試特定微調版的各種模型。
• 多模態（圖文） → 可以看看Qwen VL或對應視覺版本的模型。

提醒：目前網絡上的各種基準測試數據僅供參考，用你的真實環境數據測試2-3個模型最實際。而且模型迭代非常快，每隔幾個月就有可能出現新王者。

三、推薦的成熟部署方案

目前的本地部署工具已經非常友好，新手10分鐘就可以上手。

◆ 個人/輕量首選：Ollama

• 優點：一鍵安裝（支持 Win/Mac/Linux），ollama run qwen3.5 即可運行；內置OpenAI兼容API；Model Library豐富；支持 Modelfile自定義。
• 搭配：Open WebUI（網頁聊天界面，像ChatGPT）+ AnythingLLM（RAG知識庫）。
• 適合：開發者、日常使用。社區最大，相關問題好解決。

◆ GUI友好型：LM Studio

• 優點：圖形界面，可以直觀搜索/下載Hugging Face模型；聊天界面漂亮；支持GGUF量化。
• 適合：非技術用戶或想快速試模型的人。也可結合Ollama後端。

◆ 企業/生產級：

• vLLM/TensorRT-LLM：高併發、吞吐優化，適合服務器多用戶。
• llama.cpp：極致輕量，支持CPU/GPU混合，資源受限設備的首選工具方案。
• Docker + Open WebUI：標準化部署，便於管理。

Mac用戶：oMLX或Ollama（MLX後端）可以利用Mac的統一內存優勢，體驗極佳。

簡單安裝流程（以Ollama為例）：

1. 官網下載安裝Ollama。
2. 命令行運行 ollama pull qwen3.5:27b（選量化版本）。
3. 最後瀏覽器訪問Open WebUI端口或直接用API集成到代碼中。

四、硬件與成本分析

• 核心是顯存（VRAM）：帶寬比核心數更重要。NVIDIA CUDA生態最好，AMD/Apple也有不錯的環境支持。
• 甜點配置：RTX 4090/5090（24-32GB）+ 64GB系統RAM + 高速SSD。目前總成本1-2萬RMB估計就可以出實用效果。
• Mac方案：M4 Max/Studio（64-128GB統一內存），即插即用，功耗低，但價格也較高。
• 擴展：多卡、CPU卸載等方案可降低門檻，但也會犧牲速度。

與雲端API的成本對比：重度使用（每天數萬tokens）本地1-2年回本；輕度使用則雲端更靈活。混合使用（本地為主，雲端輔助）是目前大多數場景的最理性選擇。

潛在侷限和避坑指南：

• 量化會略降模型質量（Q4/Q5通常可接受）。
• 長上下文消耗顯存多，可以根據場景提前做好工作流規劃。
• 驅動/兼容性問題：選主流工具可避坑。
• 功耗與散熱：高負載下須注意，尤其是GPU方案，Mac方案相對較好。

最後：從“嚐鮮”到“生產力工具”

現在的本地大模型已不是嚐鮮玩具，而是可信賴的生產力替換工具。它可以給你本地的完全控制權、隱私保障和定製自由，不過也要求你投入時間學習和硬件成本。

我的建議是從Ollama + Qwen3.5 7B/27B開始，跑通你的第一個RAG項目，感受本地可控大模型的樂趣。再根據實際需求升級。別追求最大最新，先求“夠用且穩定”。

本地部署不是為了完全取代雲端，而是多一種強大選擇。在隱私、成本、控制三者間找到平衡，你才會發現AI真正屬於自己。

歡迎評論區分享你的硬件和模型體驗，一起交流！如果需要具體安裝教程或模型對比，留言告訴我，下篇繼續深挖。

參考資料：Hugging Face、Ollama官網、r/LocalLLaMA社區、相關技術博客等。

（本文基於2026年5月公開信息整理，AI領域迭代快，建議結合官方和社區最新動態驗證。）