Gemma 3 安装教程：Google开源AI全平台部署指南

开源大语言模型下载中心

Gemma 3 / Llama 4 / DeepSeek / Qwen 一站下载

立即下载模型 →

教程说明：Google DeepMind 于2025年底发布的 Gemma 3 是目前同等参数规模下性能最强的开源多模态模型之一。Gemma 3 支持从1B到27B不同参数规模，能在手机、笔记本到服务器各类设备上运行，且支持中文、英文等140多种语言。本文将详细介绍如何在 Windows、macOS、Linux、iPhone 和安卓手机上安装 Gemma 3，帮助你快速开启本地AI之旅。

Gemma 3 是什么？Google开源AI的里程碑

Gemma 3 是 Google DeepMind 在 Gemini 技术基础上蒸馏出的开源系列模型。与前代相比，Gemma 3 的核心突破在于：第一，引入了原生多模态能力，可以理解图片内容；第二，上下文窗口扩大到128K tokens，支持处理超长文档；第三，推出了 Gemma 3n 移动端优化版本，1B 和 4B 参数版本在手机芯片上也能流畅运行。

Gemma 3 在多个权威测评中表现亮眼，尤其是 Gemma 3 27B 版本在 MMLU、HumanEval 等基准测试上超越了多个更大参数的开源模型，甚至在部分任务上接近 GPT-4o 的水准。对于中国用户来说，Gemma 3 的中文能力相当出色，完全可以胜任日常对话、文案写作、代码辅助等工作。

手机端侧运行

移动端优化版

12B

个人电脑首选

27B

旗舰性能版

Windows 平台安装 Gemma 3

在 Windows 上安装 Gemma 3 最简单的方式是使用 Ollama，它会自动处理 CUDA/ROCm 驱动的调用，同时支持 NVIDIA、AMD 以及纯 CPU 运行模式。如果你更喜欢图形界面，也可以选择 LM Studio。

方法一：Ollama 安装 Gemma 3（推荐）

1前往 ollama.com/download 下载 Windows 安装包
2安装完成后打开 命令提示符 或 PowerShell
3运行以下命令拉取并启动 Gemma 3

# 安装 Gemma 3（4B 版本，适合大多数笔记本，约 3.3GB）
ollama pull gemma3:4b

# 安装 Gemma 3（12B 版本，需要 16GB+ 内存/显存）
ollama pull gemma3:12b

# 安装 Gemma 3（27B 版本，需要 32GB+ 显存，高性能）
ollama pull gemma3:27b

# 启动对话
ollama run gemma3:4b

# 发送带图片的请求（多模态示例）
ollama run gemma3:4b "请描述这张图片" --image /path/to/image.jpg

💡 Windows 显卡加速配置

Ollama 会自动检测 NVIDIA 显卡（需安装 CUDA 驱动 v11.3+）和 AMD 显卡（需安装 ROCm）。如果没有独立显卡，Ollama 会自动切换到 CPU 模式，速度较慢但功能完整。建议至少使用 RTX 3060（12GB 显存）运行 Gemma 3 12B。

方法二：LM Studio 图形界面安装

1访问 lmstudio.ai 下载 Windows 安装包（约200MB）
2打开后在搜索栏输入"gemma-3"，浏览可用版本
3选择 google/gemma-3-4b-it-GGUF（推荐新手）或 12b 版本（需16GB显存）
4下载完成后在 Chat 界面加载模型开始对话，也可在 Developer 标签页开启本地 API

macOS 平台安装 Gemma 3

Apple Silicon Mac（M1/M2/M3/M4）运行 Gemma 3 的效果非常出色。得益于统一内存架构，M3 Pro（36GB）可以流畅运行 Gemma 3 27B 量化版，推理速度约 25-35 tokens/秒，完全满足日常使用需求。

方法一：Homebrew + Ollama

# 安装 Homebrew（如已安装跳过此步）
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

# 安装 Ollama
brew install ollama

# 后台启动 Ollama 服务
brew services start ollama

# 拉取 Gemma 3（根据 Mac 内存选择版本）
# M1/M2 MacBook（8-16GB）推荐 4B
ollama pull gemma3:4b

# M3 Pro/Max 或更高（24GB+）推荐 12B
ollama pull gemma3:12b

# M4 Max / Mac Studio（64GB+）推荐 27B
ollama pull gemma3:27b

# 运行
ollama run gemma3:12b

M1 8GB

方法二：Msty（macOS 专属图形界面）

1访问 msty.app，下载 macOS 版本并安装
2Msty 内置模型库，可直接在界面中搜索和下载 Gemma 3
3Msty 支持多模型对话对比，可同时向 Gemma 3 和其他本地模型发送同一问题进行比较
4还支持 RAG 知识库功能，可上传 PDF 文档进行问答

Linux 平台安装 Gemma 3

Linux 是部署 Gemma 3 的首选服务器平台。对于 NVIDIA GPU 服务器，Gemma 3 的推理效率极高，单张 A100（80GB）可以轻松运行 Gemma 3 27B FP16 版本，推理速度超过 80 tokens/秒。

# Ubuntu/Debian 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 确认安装成功
ollama --version

# 拉取 Gemma 3（服务器推荐 27B，消费级显卡推荐 12B）
ollama pull gemma3:27b

# 以 API 服务形式运行（允许局域网访问）
OLLAMA_HOST=0.0.0.0:11434 ollama serve &

# 测试 API
curl http://localhost:11434/api/chat -d '{
  "model": "gemma3:27b",
  "messages": [
    {"role": "user", "content": "你好，介绍一下Gemma 3的主要特点"}
  ]
}'

使用 vLLM 部署（高并发生产环境）

# 安装 vLLM（需要 CUDA 12.1+）
pip install vllm

# 启动 Gemma 3 27B API 服务（OpenAI 兼容格式）
python -m vllm.entrypoints.openai.api_server \
    --model google/gemma-3-27b-it \
    --tensor-parallel-size 2 \
    --gpu-memory-utilization 0.9 \
    --max-model-len 8192 \
    --port 8000

# 发送请求
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "google/gemma-3-27b-it",
    "messages": [{"role":"user","content":"你好"}]
  }'

网络提示：从 Hugging Face 下载 Gemma 3 27B 模型文件（约 55GB），在中国大陆网络下速度极慢。建议先开启 VPN07，连接 1000Mbps 高速节点后再执行下载，通常可以在1小时内完成。

iPhone / iOS 平台安装 Gemma 3

Gemma 3 专门推出了 Gemma 3n（nano）移动端优化版本，1B 和 4B 参数版本可以在 iPhone 上本地运行，无需联网。iOS 上有多款 App 支持本地运行 Gemma 3。

方式一：Pocketpal AI（推荐，支持Gemma 3原生格式）

1在 App Store 搜索安装 Pocketpal AI
2打开后点击"+"号，在搜索框输入"gemma-3"
3选择 gemma-3-1b-it-Q6_K（iPhone 14 及以下）或 gemma-3-4b-it-Q4_K_M（iPhone 15 Pro 以上）
4WiFi 下载（约 800MB - 2.5GB），安装完成后模型完全离线运行

方式二：Google AI Studio 网页端（零安装访问）

1在 Safari 访问 aistudio.google.com（需要 Google 账号，登录时开启 VPN07）
2在模型选择器中选择 Gemma 3 27B，获取免费使用额度
3Google AI Studio 也提供免费 API Key，每分钟15次请求，适合个人项目开发

安卓 Android 平台安装 Gemma 3

Google 专为安卓平台优化了 Gemma 3n 模型，并通过 Google Play AI Core 系统服务在部分安卓设备上内置了 Gemma 支持。除此之外，也有多个第三方 App 支持安卓本地运行 Gemma 3。

方式一：MLC Chat（开源 Android App）

1在 Google Play 下载 MLC Chat（或从 GitHub 官方发布页下载 APK）
2打开应用后在模型列表中选择 Gemma-3-1B 或 Gemma-3-4B
3骁龙 8 Gen 2/3 手机推荐下载 4B 版本，低端机型选择 1B
4下载完成后即可离线使用，推理速度约 15-25 tokens/秒（4B 量化版）

方式二：MediaPipe 开发者集成（Android Studio）

开发者可以通过 Google 的 MediaPipe LLM Inference API 直接将 Gemma 3 集成到自己的安卓 App 中：

// build.gradle 添加依赖
dependencies {
    implementation 'com.google.mediapipe:tasks-genai:0.10.22'
}

// 下载模型文件（在 assets 目录或运行时下载）
// gemma-3-1b-it-int4.bin（约 800MB）

// 初始化推理引擎
val options = LlmInference.LlmInferenceOptions.builder()
    .setModelPath("/data/local/tmp/gemma-3-1b-it-int4.bin")
    .setMaxTokens(1024)
    .build()
val llmInference = LlmInference.createFromOptions(context, options)

// 生成回复
val response = llmInference.generateResponse("你好，Gemma 3!")

Gemma 3 多模态功能使用方法

Gemma 3 的一大亮点是支持图像理解。在安装完成后，你可以向它发送图片并提问，它会分析图片内容并给出回答。以下是在 Ollama 中使用多模态功能的示例：

# 通过 Ollama API 发送图片（Base64 编码）
import ollama
import base64

# 读取图片并编码
with open("image.jpg", "rb") as f:
    image_data = base64.b64encode(f.read()).decode()

# 发送包含图片的请求
response = ollama.chat(
    model="gemma3:12b",
    messages=[
        {
            "role": "user",
            "content": "请描述这张图片中的内容",
            "images": [image_data]
        }
    ]
)

print(response['message']['content'])

使用技巧：Gemma 3 的系统提示词（System Prompt）支持中文，可以显著改善中文对话质量。建议添加系统提示："你是一个专业的AI助手，请始终用简体中文回答问题，保持专业准确的态度。"

Gemma 3 vs 其他开源模型：如何选择

面对市面上众多开源大模型，很多用户不知道该选哪个。以下简要对比 Gemma 3 与主流开源模型，帮你快速找到最适合自己的工具。

Gemma 3 vs Llama 4：生态与性能

Llama 4 参数更大、整体性能更强，但硬件需求也更高。Gemma 3 27B 在中等硬件上跑得很好，且 Google AI Studio 提供免费 API，适合开发者快速验证想法。两者都支持多模态，但 Gemma 3 的图片理解更成熟。

Gemma 3 vs Qwen3.5：中文场景选哪个

纯中文写作和对话任务，Qwen3.5 因为是国内团队专门优化的，中文能力更强；但如果你的工作需要英文与中文混合处理，或者需要 OCR 识别图片中的文字，Gemma 3 的多模态能力更胜一筹。

Gemma 3 vs Phi-4：小参数谁更强

Phi-4 在数学和代码方面是"以小博大"的代表作，14B 参数可以打败很多更大的模型；而 Gemma 3 12B 在综合能力上更均衡，特别适合多语言文本处理和图片理解这类日常任务。

常见问题解答

Q：Gemma 3 需要同意使用条款吗？

A：是的，使用 Gemma 3 需要在 Hugging Face 上同意 Gemma ToU（使用条款）。访问 huggingface.co/google/gemma-3-12b-it，点击"Agree and access repository"即可。这个过程需要 Hugging Face 账号和稳定网络，推荐配合 VPN07 完成。

Q：Gemma 3 和 Qwen3.5 哪个更好？

A：Gemma 3 在英文推理、代码和多模态方面更强；Qwen3.5 在中文理解和中文对话方面更有优势。中国用户日常使用中文对话推荐 Qwen3.5，英文编程开发推荐 Gemma 3。

Q：Gemma 3 可以商用吗？

A：是的，Gemma 3 采用 Gemma ToU 许可，允许商业使用，月活用户超过100万需联系 Google 获得额外许可。

还想体验更多开源大模型？

Gemma 3 / Llama 4 / DeepSeek / Qwen 一站下载

查看全部模型 →

从 Hugging Face 下载Gemma 3 必备

VPN07 1000Mbps 千兆带宽，稳定连接 Google 服务

¥9/月

超低月费

1000Mbps

千兆带宽

70+国家

全球节点

30天

无条件退款

免费试用VPN07 查看价格方案

Gemma 3 安装教程：Google开源AI全平台部署完全指南