Llama 4 安装教程:Windows/Mac/Linux/手机全平台一次搞定
教程说明:Meta 于2025年底正式发布 Llama 4 系列,包含 Llama 4 Scout(轻量多模态)、Llama 4 Maverick(高性能对话)和 Llama 4 Ultra(顶级推理)三个主要版本。本文将手把手教你在 Windows、macOS、Linux、iPhone(iOS)以及安卓五大平台上安装和运行 Llama 4,无论你是技术小白还是开发者都能找到适合自己的方式。
Llama 4 是什么?为什么值得关注
Llama 4 是 Meta(Facebook母公司)于2025年第四季度发布的最新一代开源大语言模型,也是目前开源社区性能最强的多模态模型之一。相比上一代 Llama 3.3,Llama 4 在推理能力、代码生成和多语言支持上均有质的飞跃,尤其是引入了原生多模态能力,可以同时处理文字、图片、音频和视频内容。
Llama 4 完全开源、可商用,这意味着你不仅可以在自己的设备上免费运行,还可以基于它构建商业产品。模型文件托管在 Hugging Face 和 Meta 官方平台,下载不需要付费,但可能需要稳定的国际网络连接(这正是 VPN07 发挥作用的地方)。
安装前的硬件要求
内存 16GB RAM,显存 8GB VRAM(NVIDIA GTX 1080 Ti 及以上),SSD 剩余空间 20GB
内存 32GB RAM,显存 24GB VRAM(RTX 4090/A100),NVMe SSD 50GB 可用空间
多卡 GPU 服务器(如 A100×8),建议通过 API 接入方式使用
Windows 平台安装 Llama 4
Windows 用户推荐通过 Ollama 来安装和运行 Llama 4,这是目前最简单、兼容性最好的本地大模型运行工具,支持 NVIDIA 和 AMD 显卡,也支持纯 CPU 模式运行。
方法一:Ollama 一键安装(推荐新手)
- 1访问 ollama.com,点击"Download",下载 Windows 安装包(OllamaSetup.exe,约80MB)
- 2双击安装包,按提示完成安装,Ollama 会自动注册为 Windows 服务
- 3打开 命令提示符(CMD)或 PowerShell,输入以下命令拉取 Llama 4
# 安装 Llama 4 Scout(推荐入门,约 40GB)
ollama pull llama4:scout
# 安装 Llama 4 Maverick(高性能,约 90GB)
ollama pull llama4:maverick
# 安装完成后,启动对话
ollama run llama4:scout
注意:下载 Llama 4 模型文件需要访问 Hugging Face(huggingface.co)和 Meta 官方服务器,在中国大陆网络环境下可能非常缓慢甚至无法连接。强烈建议配合 VPN07 的1000Mbps高速节点下载,通常40GB的模型文件在20分钟内可以下载完毕。
方法二:LM Studio 图形界面(适合不喜欢命令行的用户)
- 1访问 lmstudio.ai,下载 Windows 版本(约 200MB)
- 2安装并打开 LM Studio,在搜索栏中输入"llama4"
- 3选择适合你显存的量化版本(Q4_K_M 平衡质量与速度,Q2_K 最小显存需求)
- 4点击"Download"等待下载完成,然后在"Chat"界面直接开始使用
- 5LM Studio 还提供本地 API 服务(端口1234),可供其他 AI 工具调用
macOS 平台安装 Llama 4
macOS 用户(尤其是搭载 Apple Silicon M1/M2/M3/M4 芯片的 Mac)在运行本地大模型方面有天然优势。苹果的统一内存架构(UMA)让 GPU 和 CPU 共享内存,即使是 M3 MacBook Pro(36GB 内存)也能流畅运行 Llama 4 Scout。
方法一:Homebrew + Ollama(推荐)
# 第一步:安装 Homebrew(如果尚未安装)
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
# 第二步:通过 Homebrew 安装 Ollama
brew install ollama
# 第三步:启动 Ollama 服务
ollama serve
# 第四步:新开一个终端标签,拉取 Llama 4
ollama pull llama4:scout
# 第五步:开始对话
ollama run llama4:scout
方法二:Jan App(图形界面,Apple Silicon 优化版)
- 1访问 jan.ai,下载 macOS 版本(支持 Apple Silicon 和 Intel)
- 2打开 Jan,在"Hub"中搜索"Llama 4",选择适合内存大小的量化版本
- 3下载完成后点击"Use"直接进入对话界面
- 4Jan 同时提供兼容 OpenAI 格式的本地 API,方便接入 Cursor、Cherry Studio 等 AI 工具
Linux 平台安装 Llama 4
Linux 是运行本地大模型的最佳平台,无论是 Ubuntu、Debian、CentOS 还是 Arch Linux,都可以通过下面的方式快速部署 Llama 4。Linux 服务器用户可以把 Llama 4 作为内网 AI 服务提供给整个团队使用。
方法一:一键安装脚本(最简单)
# 安装 Ollama(Ubuntu/Debian/CentOS 通用)
curl -fsSL https://ollama.com/install.sh | sh
# 启动 Ollama 服务
sudo systemctl start ollama
sudo systemctl enable ollama # 设置开机自启
# 拉取 Llama 4 Scout
ollama pull llama4:scout
# 运行对话
ollama run llama4:scout
# 如果需要从外部访问(局域网 AI 服务)
OLLAMA_HOST=0.0.0.0 ollama serve
方法二:Docker 容器部署(生产环境推荐)
# 拉取 Ollama Docker 镜像
docker pull ollama/ollama
# CPU 模式运行
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
# NVIDIA GPU 加速模式
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
# 在容器内拉取 Llama 4
docker exec -it ollama ollama pull llama4:scout
# 测试 API
curl http://localhost:11434/api/generate -d '{
"model": "llama4:scout",
"prompt": "你好,介绍一下Llama 4"
}'
方法三:Open WebUI(浏览器界面)
- 1安装 Open WebUI,为 Ollama 提供类 ChatGPT 的网页界面
- 2运行:
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway ghcr.io/open-webui/open-webui:main - 3访问 http://localhost:3000,注册账号后即可在网页端使用 Llama 4
iPhone / iOS 平台安装 Llama 4
iPhone 上运行 Llama 4 有两种方式:通过在线 API 访问(无需本地模型,推荐)或在设备上本地运行轻量量化模型(适合 iPhone 16 Pro 及以上机型)。
方式一:Pocketpal AI(支持 GGUF 格式本地运行)
- 1在 App Store 搜索并安装 Pocketpal AI(免费,by Jan.ai团队)
- 2打开后点击"添加模型",搜索"Llama 4",选择 Llama-4-Scout-Q4_K_M(约 2.5GB)
- 3等待模型下载完成(建议连接 WiFi,下载期间保持屏幕常亮)
- 4下载完成后点击"开始聊天",模型完全在本地运行,无需联网
方式二:通过 API 连接远程 Llama 4
- 1在 App Store 安装 OpenCat 或 Morphic(兼容 OpenAI API 的 iOS 客户端)
- 2在设置中填入你的 Groq API Key(Groq 提供免费的 Llama 4 API)
- 3Groq API Key 获取:访问 console.groq.com 免费注册并获取密钥
- 4选择模型"llama4-scout",即可使用云端高速推理服务
安卓 Android 平台安装 Llama 4
安卓用户除了可以使用各类 AI 对话 App 通过 API 访问 Llama 4 外,还可以借助 Termux 这个强大的终端模拟器在手机上直接运行本地模型(适合旗舰机型)。
方式一:MLC Chat(最简单的安卓本地运行方案)
- 1在 Google Play 搜索并安装 MLC Chat(by MLC-AI团队,开源免费)
- 2打开应用后,在模型库中找到 Llama-4-Scout-3B-Instruct-q4f16_1
- 3点击下载,约 2GB,建议使用 WiFi 下载,连接 VPN07 可大幅提速
- 4下载完成后直接开始聊天,支持骁龙 8 Gen 2/3 GPU 加速
方式二:Termux + Ollama(进阶用户)
# 从 F-Droid 安装 Termux(不要用 Google Play 版本,版本太旧)
# https://f-droid.org/packages/com.termux/
# 在 Termux 中运行以下命令
pkg update && pkg upgrade
pkg install curl
# 安装 Ollama(ARM64 版本)
curl -fsSL https://ollama.com/install.sh | sh
# 拉取轻量版 Llama 4(推荐骁龙 8 Gen 3 以上机型)
ollama pull llama4:scout
# 运行对话
ollama run llama4:scout
性能参考:骁龙 8 Gen 3 手机(如小米14 Ultra、三星 S25 Ultra)运行 Llama 4 Scout Q4 量化版,推理速度约 12-18 tokens/秒,对话体验流畅。建议至少保留 6GB 运行内存。
通过 API 接入 Llama 4(开发者方案)
如果你不想在本地部署,或者设备配置不足以运行 Llama 4,可以通过以下免费/低价云端 API 来使用 Llama 4 的强大能力。这些 API 都兼容 OpenAI 格式,迁移成本极低。
Groq(免费,速度极快)
免费额度Groq 的 LPU 推理硬件速度堪称目前最快,Llama 4 Scout 推理速度超过 200 tokens/秒。免费账户每天有大量额度。API地址:api.groq.com
Together AI
$0.1/百万token起支持 Llama 4 全系列,包括 Maverick 和 Ultra,按量计费,适合生产环境。
Fireworks AI
低延迟专注于推理加速,Llama 4 响应延迟通常低于 1 秒,适合实时对话应用。
# Python 示例:通过 Groq API 使用 Llama 4
from groq import Groq
client = Groq(api_key="你的Groq API Key")
chat_completion = client.chat.completions.create(
messages=[
{
"role": "user",
"content": "用中文介绍一下 Llama 4 的主要优势",
}
],
model="llama4-scout-17b-16e-instruct", # Llama 4 Scout
)
print(chat_completion.choices[0].message.content)
常见问题与解决方案
Q:下载 Llama 4 模型速度很慢怎么办?
A:Llama 4 的模型文件托管在 Hugging Face 和 Meta 官方服务器,在中国大陆访问这些服务速度较慢。推荐使用 VPN07 的 1000Mbps 高速节点,可以将下载速度从几十KB/s 提升到几十MB/s,大幅缩短等待时间。
Q:Ollama 报错"model not found"?
A:确认 Ollama 版本已更新到 0.5.0 以上(ollama --version),旧版本可能不支持 Llama 4。运行 ollama pull llama4:scout 时需要访问 registry.ollama.ai。
Q:运行 Llama 4 时显存不足怎么办?
A:选择更高压缩比的量化版本(如 Q2_K 代替 Q4_K_M),或使用 CPU + 内存模式运行(在 Ollama 中默认支持,速度较慢但不需要显卡)。
Q:Llama 4 不支持中文怎么办?
A:Llama 4 原生支持多语言包括中文。如果回复主要是英文,可以在系统提示词(System Prompt)中添加:"请始终用中文回复我的问题"。