零成本養蝦！谷歌 Gemma 4「本地部署」保姆級教程，三步搞定

作者：AI信息Gap

日期：2026年4月3日下午10:38

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

本地免費部署Gemma 4模型，按內存揀版本，用Ollama三步搞掂，仲可以叫龍蝦幫你自動化。

整理版摘要

呢篇文章係由AI產品經理木易寫嘅，佢本身係Top2+美國Top10 CS碩士，而家做AI產品經理。佢想教大家點樣零成本喺自己電腦部署Google最新開源模型Gemma 4。文章指出，Gemma 4係Gemma家族第一次用Apache 2.0協議開源，意味住你可以免費商用、魔改同二次分發。整體結論係，只要用Ollama呢個工具，跟住三個步驟，無論Mac、Windows定Linux，都可以輕鬆跑起Gemma 4，從此唔使再俾雲端API嘅token費用。

Gemma 4一共有四個版本，按參數同內存需求分類。最細嘅E2B（23億參數）量化後只需4GB內存，手機同樹莓派都行；E4B（45億參數）約5.5GB，適合日常聊天；26B係混合專家架構（MoE），每次只激活38億參數，量化後約16-18GB，性價比最高；滿血版31B約17-20GB，跑分最勁。讀者可以根據自己電腦嘅內存選擇對應版本，一句話總結：「4 GB 跑 E2B，6 GB 跑 E4B，18 GB 跑 26B，20 GB 以上跑 31B。」

部署過程非常簡單，只要安裝Ollama，拉取模型，就可以開始對話。作者仲示範咗點樣用OpenClaw（龍蝦）自動幫你完成安裝同設定，連終端都唔使用。呢篇文章尤其適合想本地運行AI模型、節省成本嘅開發者同進階用戶。

Gemma 4用Apache 2.0開源，可以免費商用、魔改同二次分發。
四個模型版本按內存需求選擇：E2B（4GB）、E4B（5.5GB）、26B（16-18GB）、31B（20GB+），其中26B性價比最高。
用Ollama工具可以喺Mac、Windows、Linux上簡單部署，Apple Silicon有MLX加速，NVIDIA支援NVFP4格式。
可以透過OpenClaw（龍蝦）自動完成Ollama安裝、模型下載同測試，全程唔使手動打命令。
本地部署之後token成本歸零，適合長期使用，尤其係需要頻繁調用API嘅場景。

值得記低

筆記

Ollama 常用命令

ollama list (查看已下載模型), ollama ps (查看運行中模型同內存佔用), ollama run <model> (啟對話), ollama stop <model> (卸載模型釋放內存), ollama pull <model> (更新到最新), ollama rm <model> (刪除模型)

結構示例

內容片段

內容片段 text

ollama list             # 查看已下載的模型ollama ps               # 查看正在運行的模型和內存佔用ollama run gemma4:26b   # 啓動對話ollama stop gemma4:26b  # 卸載模型釋放內存ollama pull gemma4:26b  # 更新到最新版本ollama rm gemma4:26b    # 刪除模型

整理重點

Gemma 4 開源免費，本地部署嘅好處

Google最近開源咗Gemma 4，係Gemma家族第一次用Apache 2.0協議開源。呢個意味住你可以免費商用、魔改同埋二次分發，完全冇問題。

本地部署嘅最大好處係token成本歸零，唔使再俾雲端API嘅費用。配合Ollama呢個工具，安裝同管理模型都變得好簡單。

整理重點

揀啱版本：按內存決定用邊個模型

Gemma 4一共有四個版本，你需要根據自己電腦嘅內存選擇。以下係4-bit量化後嘅內存需求：

E2B（23億參數）：約4GB，支援圖片音頻，128K上下文，手機同樹莓派都跑得鬱。
E4B（45億參數）：約5.5GB，同樣支援圖片音頻，128K上下文，適合日常聊天。
26B（MoE，總252億參數，每次激活38億）：約16-18GB，256K上下文，支援圖片唔支援音頻，速度接近小模型，質量接近滿血版，性價比最高。
31B（滿血版，307億參數全激活）：約17-20GB，256K上下文，Arena AI開源排行榜第三，跑分最猛，24GB可跑但32GB更舒服。

一句話總結：「4 GB 跑 E2B，6 GB 跑 E4B，18 GB 跑 26B，20 GB 以上跑 31B。」

整理重點

三步驟部署：Mac、Windows、Linux都得

首先，去ollama.com下載安裝Ollama。Mac用戶可以用Homebrew：brew install --cask ollama-app裝好後啟動，菜單欄會出現一個羊駝圖標。

跟住，根據你嘅內存揀一個模型拉取。以26B為例，打開終端輸入：ollama run gemma4:26bOllama會自動下載模型，下載完成後直接進入聊天界面。你可以用ollama ps查看CPU/GPU分配比例。

Windows用戶可以喺PowerShell用一行命令安裝：irm https://ollama.com/install.ps1 | iex之後同樣行ollama run gemma4:26b就得。

整理重點

進階：叫龍蝦幫你搞掂曬

如果你已經養咗一隻龍蝦（OpenClaw），無論喺本地定雲服務器，上面啲命令完全唔使自己敲。直接同龍蝦講「喺服務器上安裝Ollama」同「下載Gemma 4 26B模型」，佢就會自動執行。

龍蝦會自動處理依賴，例如發現缺zstd會自己裝好再繼續。
下載17GB模型文件後會校驗。
測試對話時，如果純CPU太慢，可以叫佢換成E4B。
最後仲可以叫龍蝦將自己嘅模型後端切到本地Gemma 4，API端點指返localhost:11434，從此唔使雲端API。

呢個流程示範咗點樣全程唔使碰終端，完全靠龍蝦自動化完成部署。

尋日講咗 Gemma 4，今日教你點樣將佢裝落本地電腦度。

養龍蝦終於唔使畀錢喇。

Google 最新嘅開源模型 Gemma 4，原生支援 function calling。裝喺你自己部電腦度，接入 OpenClaw，token 成本直接歸零。

重點係，Gemma 4 係 Gemma 家族第一次用 Apache 2.0 協議開源。商業用、改裝、二次分發，都冇問題。再加上 Ollama 最近更新咗大版本。Apple Silicon 上直接用 Apple 自家嘅 MLX 框架推理，速度快一倍。

三步搞掂。Mac、Windows、Linux 都做到。

先睇嚇你部電腦有幾多內存。

Gemma 4 總共有四個版本，下面都以 4-bit 量化做例子。

最小的 E2B，23 億參數，4-bit 量化之後大約 4 GB 內存。支援圖片、音頻輸入，128K 上下文。手機同 Raspberry Pi 都行到。

E4B，45 億參數，大約 5.5 GB。同樣支援圖片同音頻，128K 上下文。適合日常傾偈。

26B 係混合專家架構（MoE），總參數 252 億，每次推理只激活 38 億。4-bit 量化之後佔 16-18 GB 內存。256K 上下文，支援圖片，唔支援音頻。速度接近細模型，品質接近滿血版，性價比最高。24 GB 內存嘅 Mac 或者 24 GB 顯存嘅顯卡就帶得鬱。

滿血版 31B，307 億參數全部激活。17-20 GB 內存。256K 上下文。Arena AI 開源排行榜第三，AIME 2026 數學推理 89.2%，編程 LiveCodeBench 80.0%。跑分最勁，24 GB 行到但係有啲緊，32 GB 更舒服。

一句講曬，「4 GB 行 E2B，6 GB 行 E4B，18 GB 行 26B，20 GB 以上行 31B。」

Mac 用家，先去 ollama.com 下載、安裝 Ollama。用 Homebrew 都得。

brew install --cask ollama-app

Ollama 係目前行本地模型最簡單嘅工具（之一）。模型下載、推理引擎、API 服務，一個 App 就搞掂。

裝好之後啟動 Ollama。打開終端，執行：

open -a Ollama

選單欄會出現一個羊駝圖標，等幾秒鐘初始化完成。根據你嘅內存揀一個模型拉取。以 26B 為例。

ollama run gemma4:26b

Ollama 會自動下載模型並啟動對話。26B 大約 18 GB，耐心等。

下載完成之後直接進入聊天界面。隨便問一句，見到回答就成功咗。

可以用下面呢個命令睇模型運行狀態。

ollama ps

你會見到 CPU/GPU 嘅推理分配比例，例如「14%/86% CPU/GPU」。以 Apple Silicon 為例，大部分計算行喺 GPU 上，速度比純 CPU 快好多。

三步，搞掂。

Windows 用家同理，先下載安裝 Ollama。可以直接用客戶端，亦可以打開 PowerShell，一行命令搞掂。

irm https://ollama.com/install.ps1 | iex

裝完之後打開一個新嘅 PowerShell 視窗，執行：

ollama run gemma4:26b

有 NVIDIA 顯卡嘅話，Ollama 會自動調用 CUDA 加速。冇獨顯都行到，不過慢啲。

後面係一樣嘅流程。

NVIDIA 用家劃重點。Ollama 0.19 新增咗 NVFP4 格式支援，用更少嘅顯存行模型，精度損失好細。RTX 40 系或以上嘅顯卡自動生效。

如果你已經養咗一隻龍蝦，無論係喺自己電腦度定係雲伺服器上，上面呢啲命令完全唔使自己打。直接 send 訊息俾龍蝦，佢會幫你搞掂。

以一部雲伺服器上嘅 OpenClaw 為例。全程唔使掂終端。

先同龍蝦講，「喺伺服器上安裝 Ollama。執行呢條命令：curl -fsSL https://ollama.com/install.sh | sh」。

龍蝦首先發現缺少 zstd 依賴，自己裝好之後重新執行安裝腳本。

跟住拉取模型。「下載 Gemma 4 26B 模型：ollama pull gemma4:26b」

17 GB 嘅模型文件，校驗通過。

然後叫佢測試。「同 Gemma 4 傾一句試嚇：ollama run gemma4:26b "你好，你是什麼模型？簡單介紹一下自己。"」

Gemma 4 行到喇。

但係純 CPU 推理，26B 確係有啲勉強。

叫龍蝦換成 E4B。

速度快好多。

理論上仲可以更進一步。

叫龍蝦將自己嘅模型後端切到本地 Gemma 4，API 端點指向 localhost:11434，從此唔再需要雲端 API。但係更推薦滿血版作為主力模型，細模型更適合端側。

龍蝦幫你部署咗一個免費模型，最後仲可以將自己都接上去。

最後附上 Ollama 常用命令。

ollama list             # 查看已下載的模型
ollama ps               # 查看正在運行的模型和內存佔用
ollama run gemma4:26b   # 啓動對話
ollama stop gemma4:26b  # 卸載模型釋放內存
ollama pull gemma4:26b  # 更新到最新版本
ollama rm gemma4:26b    # 刪除模型

我係木易，Top2 + 美國 Top10 CS 碩，而家係 AI 產品經理。
關注「AI信息Gap」，令 AI 成為你嘅外掛。

昨天聊了 Gemma 4，今天教你把它裝進本地電腦裏。

養龍蝦終於不用花錢了。

谷歌最新的開源模型 Gemma 4，原生支持 function calling。裝在你自己的電腦上，接入 OpenClaw，token 成本直接歸零。

劃重點，Gemma 4 是 Gemma 家族第一次用 Apache 2.0 協議開源。商用、魔改、二次分發，都沒問題。再加上 Ollama 最近更新了大版本。Apple Silicon 上直接用蘋果自家的 MLX 框架推理，速度翻倍。

三步搞定。Mac、Windows、Linux 都可以。

先看看你的電腦有多少內存。

Gemma 4 一共四個版本，下面都以 4-bit 量化為例。

最小的 E2B，23 億參數，4-bit 量化後約 4 GB 內存。支持圖片、音頻輸入，128K 上下文。手機和樹莓派都能跑。

E4B，45 億參數，約 5.5 GB。同樣支持圖片和音頻，128K 上下文。適合日常聊天。

26B 是混合專家架構（MoE），總參數 252 億，每次推理只激活 38 億。4-bit 量化後佔 16-18 GB 內存。256K 上下文，支持圖片，不支持音頻。速度接近小模型，質量接近滿血版，性價比最高。24 GB 內存的 Mac 或 24 GB 顯存的顯卡就能帶得動。

滿血版 31B，307 億參數全激活。17-20 GB 內存。256K 上下文。Arena AI 開源排行榜第三，AIME 2026 數學推理 89.2%，編程 LiveCodeBench 80.0%。跑分最猛，24 GB 能跑但比較緊，32 GB 更舒服。

一句話總結，「4 GB 跑 E2B，6 GB 跑 E4B，18 GB 跑 26B，20 GB 以上跑 31B。」

Mac 用戶，先去 ollama.com 下載、安裝 Ollama。用 Homebrew 也行。

brew install --cask ollama-app

Ollama 是目前跑本地模型最簡單的工具（之一）。模型下載、推理引擎、API 服務，一個 App 就搞定。

裝好後啓動 Ollama。打開終端，運行：

open -a Ollama

菜單欄會出現一個羊駝圖標，等幾秒鐘初始化完成。根據你的內存選一個模型拉取。以 26B 為例。

ollama run gemma4:26b

Ollama 會自動下載模型並啓動對話。26B 大約 18 GB，耐心等。

下載完成後直接進入聊天界面。隨便問一句，看到回答就成功了。

可以用下面這個命令查看模型運行狀態。

ollama ps

你會看到 CPU/GPU 的推理分配比例，比如「14%/86% CPU/GPU」。以 Apple Silicon 為例，大部分計算跑在 GPU 上，速度比純 CPU 快得多。

三步，搞定。

Windows 用戶同理，先下載安裝 Ollama。可以直接用客戶端，也可以打開 PowerShell，一行命令搞定。

irm https://ollama.com/install.ps1 | iex

裝完後打開一個新的 PowerShell 窗口，運行：

ollama run gemma4:26b

有 NVIDIA 顯卡的話，Ollama 會自動調用 CUDA 加速。沒獨顯也能跑，就是慢一些。

後面是一樣的流程。

NVIDIA 用戶劃重點。Ollama 0.19 新增了 NVFP4 格式支持，用更少的顯存跑模型，精度損失很小。RTX 40 系及以上的顯卡自動生效。

如果你已經養了一隻龍蝦，不管是在自己電腦上還是雲服務器上，上面這些命令完全不用自己敲。直接給龍蝦發消息，它會幫你搞定。

以一台雲服務器上的 OpenClaw 為例。全程不碰終端。

先對龍蝦說，「在服務器上安裝 Ollama。運行這條命令：curl -fsSL https://ollama.com/install.sh | sh」。

龍蝦先是發現缺少 zstd 依賴，自己裝好之後重新運行安裝腳本。

接着拉取模型。「下載 Gemma 4 26B 模型：ollama pull gemma4:26b」

17 GB 的模型文件，校驗通過。

然後讓它測試。「跟 Gemma 4 聊一句試試：ollama run gemma4:26b "你好，你是什麼模型？簡單介紹一下自己。"」

Gemma 4 跑起來了。

但純 CPU 推理，26B 屬實有點勉強。

讓龍蝦換成 E4B。

速度快多了。

理論上還能更進一步。

讓龍蝦把自己的模型後端切到本地 Gemma 4，API 端點指向 localhost:11434，從此不再需要雲端 API。但更推薦滿血版作為主力模型，小模型更適合端側。

龍蝦幫你部署了一個免費模型，最後還能把自己也接上去。

最後附上 Ollama 常用命令。

ollama list             # 查看已下載的模型
ollama ps               # 查看正在運行的模型和內存佔用
ollama run gemma4:26b   # 啓動對話
ollama stop gemma4:26b  # 卸載模型釋放內存
ollama pull gemma4:26b  # 更新到最新版本
ollama rm gemma4:26b    # 刪除模型

我是木易，Top2 + 美國 Top10 CS 碩，現在是 AI 產品經理。
關注「AI信息Gap」，讓 AI 成為你的外掛。