Google Gemma 3 全平台安裝教學：4GB 顯存跑本地 AI 2026

尋找 Gemma 3 及更多開源大模型？

前往 VPN07 開源大語言模型下載中心，精選 10 款主流 LLM，一鍵複製安裝命令

前往模型庫 →

教學說明：Google 在 2026 年發布的 Gemma 3 是目前最受歡迎的輕量級開源大語言模型之一。從 1B 到 27B 多個尺寸版本，最低只需 4GB 顯存（VRAM）即可執行。本教學完整覆蓋 Windows、macOS、Linux、Android、iOS 五大平台的安裝方式，讓每台電腦和手機都能體驗本地 AI 的魅力。

Gemma 3 是什麼？Google 為何開源此模型？

Gemma 3 是 Google DeepMind 發布的開源大語言模型系列，名字來自拉丁語「寶石」。儘管 Google 坐擁 Gemini Ultra 等頂級閉源模型，他們仍選擇將 Gemma 系列完全開源，目的是推動 AI 普及化，讓更多開發者和研究者能在本機上進行 AI 研究與開發。

Gemma 3 最大的特點是「小而精」。Google 工程師花費大量精力在有限參數內榨取最高效能，使得 Gemma 3 的 1B 版本甚至可以在低階 Android 手機上流暢執行。27B 版本在多項基準測試中超越了許多更大規模的競品模型，被認為是「同量級最強」。

最小版本

4GB顯存可跑

推薦入門

6GB顯存可跑

12B

日常首選

10GB顯存可跑

27B

高端版本

20GB顯存可跑

硬體需求與版本選擇指南

版本	VRAM	CPU RAM	適用設備
gemma3:1b	2GB+	4GB+	手機、舊電腦、樹莓派
gemma3:4b	4GB+	8GB+	GTX 1650 / 筆電入門配置
gemma3:12b	8GB+	16GB+	RTX 3060/4060 主流配置
gemma3:27b	16GB+	24GB+	RTX 3080/4070 進階配置

Gemma 3 的最大優勢：幾乎任何設備都能跑

不同於 DeepSeek-R1（671B 需要數十 GB 顯存）或 Llama 4 Maverick（400B 旗艦版），Gemma 3 的 1B 和 4B 版本專為低規設備優化，連帶顯卡的舊筆電都能流暢使用。這讓 Gemma 3 成為入門本地 AI 的絕佳首選。

Windows 安裝 Gemma 3 完整教學

Windows 上安裝 Gemma 3 有多種方式，以下介紹三種主流方法：

方法一：Ollama（最推薦，新手首選）

前往 ollama.com 下載 Windows 安裝程式後，在 PowerShell 執行：

# 下載 Gemma 3 4B（推薦入門版）
ollama pull gemma3:4b

# 或下載最小版本（低規設備）
ollama pull gemma3:1b

# 開始對話
ollama run gemma3:4b

方法二：LM Studio（零代碼圖形介面）

前往 lmstudio.ai 下載 LM Studio，安裝後在搜索框輸入「gemma 3」，即可找到並下載各尺寸版本。LM Studio 提供圖形介面，完全不需要使用命令列。

LM Studio 適合完全不熟悉命令列的用戶，下載後直接有 ChatGPT 風格的聊天介面。

方法三：直接從 Hugging Face 下載（進階用戶）

pip install huggingface_hub
huggingface-cli download google/gemma-3-4b-it

適合需要精細控制模型行為的開發者，可搭配 transformers、vLLM 等框架使用。

macOS 安裝 Gemma 3 完整教學

Mac 用戶尤其適合本地 AI，Apple Silicon 的統一記憶體讓 Gemma 3 效能出眾：

macOS 安裝步驟

# 方法一：Homebrew 安裝 Ollama
brew install ollama

# 啟動服務
brew services start ollama

# 下載並執行 Gemma 3
ollama run gemma3:4b

Apple Silicon（M1/M2/M3/M4）

統一記憶體讓 CPU 和 GPU 共用記憶體空間，即使是 8GB 記憶體的 M 系列 MacBook Air，也能流暢執行 Gemma 3 4B，甚至 12B 版本。Metal GPU 加速自動啟用。

Intel Mac

Intel Mac 同樣支援 Ollama，但受限於獨立顯存，推薦使用 Gemma 3 1B 或 4B 版本，確保流暢的使用體驗。CPU 推理仍可正常工作。

Linux 安裝 Gemma 3 完整教學

Linux 提供最靈活的 Gemma 3 部署環境，支援所有 CUDA 和 ROCm GPU 加速：

Ubuntu / Debian 一鍵安裝

# 安裝 Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 開機自啟
sudo systemctl enable --now ollama

# 下載 Gemma 3（選擇適合你顯存的版本）
ollama pull gemma3:4b
# 或
ollama pull gemma3:12b
# 或
ollama pull gemma3:27b

# 執行
ollama run gemma3:4b

AMD GPU 用戶（ROCm 加速）

Ollama 支援 AMD 顯示卡的 ROCm 加速，對於 RX 6000/7000 系列用戶：

# 確認 ROCm 已安裝後，Ollama 會自動偵測
rocm-smi  # 確認 AMD GPU 狀態
ollama pull gemma3:4b
OLLAMA_NUM_GPU=1 ollama run gemma3:4b

Android 手機安裝 Gemma 3

Gemma 3 的 1B 版本專為移動設備優化，是目前手機上效果最好的本地 AI 模型之一：

方法一：Google AI Edge（官方支援）

Google 官方推出了 AI Edge SDK，可讓 Gemma 3 在 Android 上以 TensorFlow Lite 格式執行。從 Google AI Studio 下載對應格式，整合到 Android 應用中。適合開發者使用。

方法二：MLC Chat（推薦普通用戶）

MLC Chat 是一個支援 Gemma 3 的 Android 應用，從 Google Play 或 GitHub 下載後，直接在 App 內選擇下載 Gemma 3 模型即可使用，無需任何技術背景。

支援 NPU 加速，Snapdragon 8 Gen 3 設備推理速度更快

方法三：Termux + Ollama

pkg update && pkg install curl
curl -fsSL https://ollama.com/install.sh | sh
ollama pull gemma3:1b  # 使用 1B 輕量版
ollama run gemma3:1b

iPhone / iOS 安裝 Gemma 3

iOS 用戶同樣有多種方式體驗 Gemma 3：

方法一：AI Chat（App Store 免費）

AI Chat 應用支援直接在 iPhone 上下載並執行 Gemma 3 1B，無需連接電腦。從 App Store 搜索「AI Chat Local LLM」即可找到，支援 iPhone 15 Pro 以上機型的 Neural Engine 加速。

方法二：Enchanted + 電腦端 Ollama

在家中電腦安裝 Ollama 並啟動 Gemma 3，在 iPhone 上安裝 Enchanted App，連接到電腦的 IP 地址。這樣 iPhone 只是前端介面，計算由電腦完成，可使用更大的 12B 或 27B 版本。

進階應用：Gemma 3 能做什麼？

Gemma 3 除了基本的對話功能，還有許多實際應用場景：

📝 本地文件摘要

將 PDF、Word 文件提供給 Gemma 3，快速生成摘要。資料完全不離本機，適合處理機密文件。

💻 程式碼輔助

透過 Ollama 的 OpenAI 相容 API，可在 VS Code、Cursor 等編輯器中整合 Gemma 3 作為本地 Copilot。

🔍 本地搜索助手

結合 RAG（檢索增強生成）技術，讓 Gemma 3 搜索並回答你本地知識庫中的問題。

🌐 離線翻譯助手

Gemma 3 支援多語言，可作為離線翻譯工具，在沒有網路的環境下也能工作。

Gemma 3 效能優化技巧

安裝完成後，以下技巧可以顯著提升 Gemma 3 的執行效能和使用體驗：

💡 選擇正確的量化精度

Ollama 預設使用 Q4_K_M 量化版本，在效能和品質間取得最佳平衡。若你的顯存充裕，可嘗試 gemma3:12b-instruct-q8_0（Q8 量化），能獲得更接近完整精度的效果。顯存有限時改用 gemma3:4b Q4 版本。

💡 設定 GPU 層數最大化

在 Linux 或 macOS 上，設定環境變數 OLLAMA_NUM_GPU=99 強制最大化 GPU 使用，確保 Gemma 3 盡量利用顯示卡記憶體執行，大幅提升推理速度。

💡 利用 Gemma 3 的長上下文優勢

Gemma 3 12B/27B 版本支援 128K Token 的超長上下文視窗，可一次性分析數萬字的長文件。使用 Ollama 時，通過 /set parameter num_ctx 32768 設定更大的上下文視窗。

下載加速與網路安全：為什麼需要 VPN07？

Gemma 3 的模型文件儲存在 Ollama 官方伺服器和 Google 的 Hugging Face 倉庫中，在亞太地區的訪問速度可能受到限制。Gemma 3 27B 版本約 18GB，若下載速度只有 1-2 Mbps，可能需要等候超過一天。

VPN07 在全球 70+ 國家設有高速節點，特別是美國、日本、新加坡等 AI 資源密集地區，連接後下載 Gemma 3 的速度可提升 10-50 倍。1000Mbps 千兆頻寬確保即使是最大的 27B 版本也能在 20 分鐘內下載完成。除了加速下載，VPN07 穩定的連線品質也確保你在使用 Google AI Studio、Hugging Face 等平台時不會因連線中斷而失敗。

常見問題 FAQ

Q：Gemma 3 vs Llama 4，該選哪個？

如果你的硬體有限（4-8GB 顯存），Gemma 3 是更好的選擇，因為它有更輕量的版本。如果你有 8GB 以上的顯存且希望更完整的多語言支援，Llama 4 Scout 是更好的選項。

Q：Gemma 3 可以免費商業使用嗎？

Gemma 3 採用 Gemma Terms of Use 授權，允許在月活用戶 200 萬以下的商業場景中免費使用。超過此規模需要與 Google 另行協商。

Q：如何讓 Gemma 3 用中文回答？

在對話時直接用中文提問即可，Gemma 3 支援多語言。如果想確保始終用繁體中文回答，可設定系統提示：你是一個繁體中文助手，請始終用繁體中文回答。

想在本機執行更多開源 AI 大模型？

VPN07 精選 10 款主流 LLM，含 DeepSeek R1、Qwen3.5、Llama 4 等，下載連結與安裝命令一應俱全