Llama 4 安装教程：Windows/Mac/Linux/手机全平台

开源大语言模型下载中心

Llama 4 / DeepSeek / Qwen / Gemma 一站下载

立即下载模型 →

教程说明：Meta 于2025年底正式发布 Llama 4 系列，包含 Llama 4 Scout（轻量多模态）、Llama 4 Maverick（高性能对话）和 Llama 4 Ultra（顶级推理）三个主要版本。本文将手把手教你在 Windows、macOS、Linux、iPhone（iOS）以及安卓五大平台上安装和运行 Llama 4，无论你是技术小白还是开发者都能找到适合自己的方式。

Llama 4 是什么？为什么值得关注

Llama 4 是 Meta（Facebook母公司）于2025年第四季度发布的最新一代开源大语言模型，也是目前开源社区性能最强的多模态模型之一。相比上一代 Llama 3.3，Llama 4 在推理能力、代码生成和多语言支持上均有质的飞跃，尤其是引入了原生多模态能力，可以同时处理文字、图片、音频和视频内容。

Llama 4 完全开源、可商用，这意味着你不仅可以在自己的设备上免费运行，还可以基于它构建商业产品。模型文件托管在 Hugging Face 和 Meta 官方平台，下载不需要付费，但可能需要稳定的国际网络连接（这正是 VPN07 发挥作用的地方）。

Llama 4 Scout

109B 参数 · MoE架构 · 17B激活

✓ 轻量多模态 ✓ 手机可运行

Llama 4 Maverick

400B 参数 · MoE架构 · 17B激活

✓ 高性能对话 ✓ 本地服务器

Llama 4 Ultra

2T 参数 · 旗舰推理能力

✓ 顶级性能 ✓ 云端API

安装前的硬件要求

✅ 最低配置（运行量化版 Scout）

内存 16GB RAM，显存 8GB VRAM（NVIDIA GTX 1080 Ti 及以上），SSD 剩余空间 20GB

💻 推荐配置（流畅运行 Maverick）

内存 32GB RAM，显存 24GB VRAM（RTX 4090/A100），NVMe SSD 50GB 可用空间

🔥 旗舰配置（Ultra 版本）

多卡 GPU 服务器（如 A100×8），建议通过 API 接入方式使用

Windows 平台安装 Llama 4

Windows 用户推荐通过 Ollama 来安装和运行 Llama 4，这是目前最简单、兼容性最好的本地大模型运行工具，支持 NVIDIA 和 AMD 显卡，也支持纯 CPU 模式运行。

方法一：Ollama 一键安装（推荐新手）

1访问 ollama.com，点击"Download"，下载 Windows 安装包（OllamaSetup.exe，约80MB）
2双击安装包，按提示完成安装，Ollama 会自动注册为 Windows 服务
3打开 命令提示符（CMD）或 PowerShell，输入以下命令拉取 Llama 4

# 安装 Llama 4 Scout（推荐入门，约 40GB）
ollama pull llama4:scout

# 安装 Llama 4 Maverick（高性能，约 90GB）
ollama pull llama4:maverick

# 安装完成后，启动对话
ollama run llama4:scout

注意：下载 Llama 4 模型文件需要访问 Hugging Face（huggingface.co）和 Meta 官方服务器，在中国大陆网络环境下可能非常缓慢甚至无法连接。强烈建议配合 VPN07 的1000Mbps高速节点下载，通常40GB的模型文件在20分钟内可以下载完毕。

方法二：LM Studio 图形界面（适合不喜欢命令行的用户）

1访问 lmstudio.ai，下载 Windows 版本（约 200MB）
2安装并打开 LM Studio，在搜索栏中输入"llama4"
3选择适合你显存的量化版本（Q4_K_M 平衡质量与速度，Q2_K 最小显存需求）
4点击"Download"等待下载完成，然后在"Chat"界面直接开始使用
5LM Studio 还提供本地 API 服务（端口1234），可供其他 AI 工具调用

macOS 平台安装 Llama 4

macOS 用户（尤其是搭载 Apple Silicon M1/M2/M3/M4 芯片的 Mac）在运行本地大模型方面有天然优势。苹果的统一内存架构（UMA）让 GPU 和 CPU 共享内存，即使是 M3 MacBook Pro（36GB 内存）也能流畅运行 Llama 4 Scout。

方法一：Homebrew + Ollama（推荐）

# 第一步：安装 Homebrew（如果尚未安装）
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

# 第二步：通过 Homebrew 安装 Ollama
brew install ollama

# 第三步：启动 Ollama 服务
ollama serve

# 第四步：新开一个终端标签，拉取 Llama 4
ollama pull llama4:scout

# 第五步：开始对话
ollama run llama4:scout

M1/M2

Scout 流畅运行

M3 Pro

Scout 高速运行

M4 Max

Maverick 本地运行

Mac Studio

192GB内存推荐

方法二：Jan App（图形界面，Apple Silicon 优化版）

1访问 jan.ai，下载 macOS 版本（支持 Apple Silicon 和 Intel）
2打开 Jan，在"Hub"中搜索"Llama 4"，选择适合内存大小的量化版本
3下载完成后点击"Use"直接进入对话界面
4Jan 同时提供兼容 OpenAI 格式的本地 API，方便接入 Cursor、Cherry Studio 等 AI 工具

Linux 平台安装 Llama 4

Linux 是运行本地大模型的最佳平台，无论是 Ubuntu、Debian、CentOS 还是 Arch Linux，都可以通过下面的方式快速部署 Llama 4。Linux 服务器用户可以把 Llama 4 作为内网 AI 服务提供给整个团队使用。

方法一：一键安装脚本（最简单）

# 安装 Ollama（Ubuntu/Debian/CentOS 通用）
curl -fsSL https://ollama.com/install.sh | sh

# 启动 Ollama 服务
sudo systemctl start ollama
sudo systemctl enable ollama  # 设置开机自启

# 拉取 Llama 4 Scout
ollama pull llama4:scout

# 运行对话
ollama run llama4:scout

# 如果需要从外部访问（局域网 AI 服务）
OLLAMA_HOST=0.0.0.0 ollama serve

方法二：Docker 容器部署（生产环境推荐）

# 拉取 Ollama Docker 镜像
docker pull ollama/ollama

# CPU 模式运行
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

# NVIDIA GPU 加速模式
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

# 在容器内拉取 Llama 4
docker exec -it ollama ollama pull llama4:scout

# 测试 API
curl http://localhost:11434/api/generate -d '{
  "model": "llama4:scout",
  "prompt": "你好，介绍一下Llama 4"
}'

方法三：Open WebUI（浏览器界面）

1安装 Open WebUI，为 Ollama 提供类 ChatGPT 的网页界面
2运行：docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway ghcr.io/open-webui/open-webui:main
3访问 http://localhost:3000，注册账号后即可在网页端使用 Llama 4

iPhone / iOS 平台安装 Llama 4

iPhone 上运行 Llama 4 有两种方式：通过在线 API 访问（无需本地模型，推荐）或在设备上本地运行轻量量化模型（适合 iPhone 16 Pro 及以上机型）。

方式一：Pocketpal AI（支持 GGUF 格式本地运行）

1在 App Store 搜索并安装 Pocketpal AI（免费，by Jan.ai团队）
2打开后点击"添加模型"，搜索"Llama 4"，选择 Llama-4-Scout-Q4_K_M（约 2.5GB）
3等待模型下载完成（建议连接 WiFi，下载期间保持屏幕常亮）
4下载完成后点击"开始聊天"，模型完全在本地运行，无需联网

方式二：通过 API 连接远程 Llama 4

1在 App Store 安装 OpenCat 或 Morphic（兼容 OpenAI API 的 iOS 客户端）
2在设置中填入你的 Groq API Key（Groq 提供免费的 Llama 4 API）
3Groq API Key 获取：访问 console.groq.com 免费注册并获取密钥
4选择模型"llama4-scout"，即可使用云端高速推理服务

安卓 Android 平台安装 Llama 4

安卓用户除了可以使用各类 AI 对话 App 通过 API 访问 Llama 4 外，还可以借助 Termux 这个强大的终端模拟器在手机上直接运行本地模型（适合旗舰机型）。

方式一：MLC Chat（最简单的安卓本地运行方案）

1在 Google Play 搜索并安装 MLC Chat（by MLC-AI团队，开源免费）
2打开应用后，在模型库中找到 Llama-4-Scout-3B-Instruct-q4f16_1
3点击下载，约 2GB，建议使用 WiFi 下载，连接 VPN07 可大幅提速
4下载完成后直接开始聊天，支持骁龙 8 Gen 2/3 GPU 加速

方式二：Termux + Ollama（进阶用户）

# 从 F-Droid 安装 Termux（不要用 Google Play 版本，版本太旧）
# https://f-droid.org/packages/com.termux/

# 在 Termux 中运行以下命令
pkg update && pkg upgrade
pkg install curl

# 安装 Ollama（ARM64 版本）
curl -fsSL https://ollama.com/install.sh | sh

# 拉取轻量版 Llama 4（推荐骁龙 8 Gen 3 以上机型）
ollama pull llama4:scout

# 运行对话
ollama run llama4:scout

性能参考：骁龙 8 Gen 3 手机（如小米14 Ultra、三星 S25 Ultra）运行 Llama 4 Scout Q4 量化版，推理速度约 12-18 tokens/秒，对话体验流畅。建议至少保留 6GB 运行内存。

通过 API 接入 Llama 4（开发者方案）

如果你不想在本地部署，或者设备配置不足以运行 Llama 4，可以通过以下免费/低价云端 API 来使用 Llama 4 的强大能力。这些 API 都兼容 OpenAI 格式，迁移成本极低。

Groq（免费，速度极快）

免费额度

Groq 的 LPU 推理硬件速度堪称目前最快，Llama 4 Scout 推理速度超过 200 tokens/秒。免费账户每天有大量额度。API地址：api.groq.com

Together AI

$0.1/百万token起

支持 Llama 4 全系列，包括 Maverick 和 Ultra，按量计费，适合生产环境。

Fireworks AI

低延迟

专注于推理加速，Llama 4 响应延迟通常低于 1 秒，适合实时对话应用。

# Python 示例：通过 Groq API 使用 Llama 4
from groq import Groq

client = Groq(api_key="你的Groq API Key")

chat_completion = client.chat.completions.create(
    messages=[
        {
            "role": "user",
            "content": "用中文介绍一下 Llama 4 的主要优势",
        }
    ],
    model="llama4-scout-17b-16e-instruct",  # Llama 4 Scout
)

print(chat_completion.choices[0].message.content)

常见问题与解决方案

Q：下载 Llama 4 模型速度很慢怎么办？

A：Llama 4 的模型文件托管在 Hugging Face 和 Meta 官方服务器，在中国大陆访问这些服务速度较慢。推荐使用 VPN07 的 1000Mbps 高速节点，可以将下载速度从几十KB/s 提升到几十MB/s，大幅缩短等待时间。

Q：Ollama 报错"model not found"？

A：确认 Ollama 版本已更新到 0.5.0 以上（ollama --version），旧版本可能不支持 Llama 4。运行 ollama pull llama4:scout 时需要访问 registry.ollama.ai。

Q：运行 Llama 4 时显存不足怎么办？

A：选择更高压缩比的量化版本（如 Q2_K 代替 Q4_K_M），或使用 CPU + 内存模式运行（在 Ollama 中默认支持，速度较慢但不需要显卡）。

Q：Llama 4 不支持中文怎么办？

A：Llama 4 原生支持多语言包括中文。如果回复主要是英文，可以在系统提示词（System Prompt）中添加："请始终用中文回复我的问题"。

还想体验更多开源大模型？

Llama 4 / DeepSeek / Qwen / Gemma 一站下载

查看全部模型 →

下载 Llama 4，网速是关键

VPN07 1000Mbps 千兆节点，让40GB模型20分钟下完

¥9/月

超低月费

1000Mbps

千兆带宽

70+国家

全球节点

30天

无条件退款

免费试用VPN07 查看价格方案

Llama 4 安装教程：Windows/Mac/Linux/手机全平台一次搞定