VPN07

Llama 4 安装教程:Windows/Mac/Linux/手机全平台一次搞定

2026-03-05 阅读约20分钟 AI安装教程 Llama 4 全平台
开源大语言模型下载中心
Llama 4 / DeepSeek / Qwen / Gemma 一站下载
立即下载模型 →

教程说明:Meta 于2025年底正式发布 Llama 4 系列,包含 Llama 4 Scout(轻量多模态)、Llama 4 Maverick(高性能对话)和 Llama 4 Ultra(顶级推理)三个主要版本。本文将手把手教你在 Windows、macOS、Linux、iPhone(iOS)以及安卓五大平台上安装和运行 Llama 4,无论你是技术小白还是开发者都能找到适合自己的方式。

Llama 4 是什么?为什么值得关注

Llama 4 是 Meta(Facebook母公司)于2025年第四季度发布的最新一代开源大语言模型,也是目前开源社区性能最强的多模态模型之一。相比上一代 Llama 3.3,Llama 4 在推理能力、代码生成和多语言支持上均有质的飞跃,尤其是引入了原生多模态能力,可以同时处理文字、图片、音频和视频内容。

Llama 4 完全开源、可商用,这意味着你不仅可以在自己的设备上免费运行,还可以基于它构建商业产品。模型文件托管在 Hugging Face 和 Meta 官方平台,下载不需要付费,但可能需要稳定的国际网络连接(这正是 VPN07 发挥作用的地方)。

Llama 4 Scout
109B 参数 · MoE架构 · 17B激活
✓ 轻量多模态 ✓ 手机可运行
Llama 4 Maverick
400B 参数 · MoE架构 · 17B激活
✓ 高性能对话 ✓ 本地服务器
Llama 4 Ultra
2T 参数 · 旗舰推理能力
✓ 顶级性能 ✓ 云端API

安装前的硬件要求

✅ 最低配置(运行量化版 Scout)

内存 16GB RAM,显存 8GB VRAM(NVIDIA GTX 1080 Ti 及以上),SSD 剩余空间 20GB

💻 推荐配置(流畅运行 Maverick)

内存 32GB RAM,显存 24GB VRAM(RTX 4090/A100),NVMe SSD 50GB 可用空间

🔥 旗舰配置(Ultra 版本)

多卡 GPU 服务器(如 A100×8),建议通过 API 接入方式使用

Windows 平台安装 Llama 4

Windows 用户推荐通过 Ollama 来安装和运行 Llama 4,这是目前最简单、兼容性最好的本地大模型运行工具,支持 NVIDIA 和 AMD 显卡,也支持纯 CPU 模式运行。

方法一:Ollama 一键安装(推荐新手)

  1. 1访问 ollama.com,点击"Download",下载 Windows 安装包(OllamaSetup.exe,约80MB)
  2. 2双击安装包,按提示完成安装,Ollama 会自动注册为 Windows 服务
  3. 3打开 命令提示符(CMD)PowerShell,输入以下命令拉取 Llama 4
# 安装 Llama 4 Scout(推荐入门,约 40GB) ollama pull llama4:scout # 安装 Llama 4 Maverick(高性能,约 90GB) ollama pull llama4:maverick # 安装完成后,启动对话 ollama run llama4:scout

注意:下载 Llama 4 模型文件需要访问 Hugging Face(huggingface.co)和 Meta 官方服务器,在中国大陆网络环境下可能非常缓慢甚至无法连接。强烈建议配合 VPN07 的1000Mbps高速节点下载,通常40GB的模型文件在20分钟内可以下载完毕。

方法二:LM Studio 图形界面(适合不喜欢命令行的用户)

  1. 1访问 lmstudio.ai,下载 Windows 版本(约 200MB)
  2. 2安装并打开 LM Studio,在搜索栏中输入"llama4"
  3. 3选择适合你显存的量化版本(Q4_K_M 平衡质量与速度,Q2_K 最小显存需求)
  4. 4点击"Download"等待下载完成,然后在"Chat"界面直接开始使用
  5. 5LM Studio 还提供本地 API 服务(端口1234),可供其他 AI 工具调用

macOS 平台安装 Llama 4

macOS 用户(尤其是搭载 Apple Silicon M1/M2/M3/M4 芯片的 Mac)在运行本地大模型方面有天然优势。苹果的统一内存架构(UMA)让 GPU 和 CPU 共享内存,即使是 M3 MacBook Pro(36GB 内存)也能流畅运行 Llama 4 Scout。

方法一:Homebrew + Ollama(推荐)

# 第一步:安装 Homebrew(如果尚未安装) /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)" # 第二步:通过 Homebrew 安装 Ollama brew install ollama # 第三步:启动 Ollama 服务 ollama serve # 第四步:新开一个终端标签,拉取 Llama 4 ollama pull llama4:scout # 第五步:开始对话 ollama run llama4:scout
M1/M2
Scout 流畅运行
M3 Pro
Scout 高速运行
M4 Max
Maverick 本地运行
Mac Studio
192GB内存推荐

方法二:Jan App(图形界面,Apple Silicon 优化版)

  1. 1访问 jan.ai,下载 macOS 版本(支持 Apple Silicon 和 Intel)
  2. 2打开 Jan,在"Hub"中搜索"Llama 4",选择适合内存大小的量化版本
  3. 3下载完成后点击"Use"直接进入对话界面
  4. 4Jan 同时提供兼容 OpenAI 格式的本地 API,方便接入 Cursor、Cherry Studio 等 AI 工具

Linux 平台安装 Llama 4

Linux 是运行本地大模型的最佳平台,无论是 Ubuntu、Debian、CentOS 还是 Arch Linux,都可以通过下面的方式快速部署 Llama 4。Linux 服务器用户可以把 Llama 4 作为内网 AI 服务提供给整个团队使用。

方法一:一键安装脚本(最简单)

# 安装 Ollama(Ubuntu/Debian/CentOS 通用) curl -fsSL https://ollama.com/install.sh | sh # 启动 Ollama 服务 sudo systemctl start ollama sudo systemctl enable ollama # 设置开机自启 # 拉取 Llama 4 Scout ollama pull llama4:scout # 运行对话 ollama run llama4:scout # 如果需要从外部访问(局域网 AI 服务) OLLAMA_HOST=0.0.0.0 ollama serve

方法二:Docker 容器部署(生产环境推荐)

# 拉取 Ollama Docker 镜像 docker pull ollama/ollama # CPU 模式运行 docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama # NVIDIA GPU 加速模式 docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama # 在容器内拉取 Llama 4 docker exec -it ollama ollama pull llama4:scout # 测试 API curl http://localhost:11434/api/generate -d '{ "model": "llama4:scout", "prompt": "你好,介绍一下Llama 4" }'

方法三:Open WebUI(浏览器界面)

  1. 1安装 Open WebUI,为 Ollama 提供类 ChatGPT 的网页界面
  2. 2运行:docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway ghcr.io/open-webui/open-webui:main
  3. 3访问 http://localhost:3000,注册账号后即可在网页端使用 Llama 4

iPhone / iOS 平台安装 Llama 4

iPhone 上运行 Llama 4 有两种方式:通过在线 API 访问(无需本地模型,推荐)或在设备上本地运行轻量量化模型(适合 iPhone 16 Pro 及以上机型)。

方式一:Pocketpal AI(支持 GGUF 格式本地运行)

  1. 1在 App Store 搜索并安装 Pocketpal AI(免费,by Jan.ai团队)
  2. 2打开后点击"添加模型",搜索"Llama 4",选择 Llama-4-Scout-Q4_K_M(约 2.5GB)
  3. 3等待模型下载完成(建议连接 WiFi,下载期间保持屏幕常亮)
  4. 4下载完成后点击"开始聊天",模型完全在本地运行,无需联网

方式二:通过 API 连接远程 Llama 4

  1. 1在 App Store 安装 OpenCatMorphic(兼容 OpenAI API 的 iOS 客户端)
  2. 2在设置中填入你的 Groq API Key(Groq 提供免费的 Llama 4 API)
  3. 3Groq API Key 获取:访问 console.groq.com 免费注册并获取密钥
  4. 4选择模型"llama4-scout",即可使用云端高速推理服务

安卓 Android 平台安装 Llama 4

安卓用户除了可以使用各类 AI 对话 App 通过 API 访问 Llama 4 外,还可以借助 Termux 这个强大的终端模拟器在手机上直接运行本地模型(适合旗舰机型)。

方式一:MLC Chat(最简单的安卓本地运行方案)

  1. 1在 Google Play 搜索并安装 MLC Chat(by MLC-AI团队,开源免费)
  2. 2打开应用后,在模型库中找到 Llama-4-Scout-3B-Instruct-q4f16_1
  3. 3点击下载,约 2GB,建议使用 WiFi 下载,连接 VPN07 可大幅提速
  4. 4下载完成后直接开始聊天,支持骁龙 8 Gen 2/3 GPU 加速

方式二:Termux + Ollama(进阶用户)

# 从 F-Droid 安装 Termux(不要用 Google Play 版本,版本太旧) # https://f-droid.org/packages/com.termux/ # 在 Termux 中运行以下命令 pkg update && pkg upgrade pkg install curl # 安装 Ollama(ARM64 版本) curl -fsSL https://ollama.com/install.sh | sh # 拉取轻量版 Llama 4(推荐骁龙 8 Gen 3 以上机型) ollama pull llama4:scout # 运行对话 ollama run llama4:scout

性能参考:骁龙 8 Gen 3 手机(如小米14 Ultra、三星 S25 Ultra)运行 Llama 4 Scout Q4 量化版,推理速度约 12-18 tokens/秒,对话体验流畅。建议至少保留 6GB 运行内存。

通过 API 接入 Llama 4(开发者方案)

如果你不想在本地部署,或者设备配置不足以运行 Llama 4,可以通过以下免费/低价云端 API 来使用 Llama 4 的强大能力。这些 API 都兼容 OpenAI 格式,迁移成本极低。

Groq(免费,速度极快)

免费额度

Groq 的 LPU 推理硬件速度堪称目前最快,Llama 4 Scout 推理速度超过 200 tokens/秒。免费账户每天有大量额度。API地址:api.groq.com

Together AI

$0.1/百万token起

支持 Llama 4 全系列,包括 Maverick 和 Ultra,按量计费,适合生产环境。

Fireworks AI

低延迟

专注于推理加速,Llama 4 响应延迟通常低于 1 秒,适合实时对话应用。

# Python 示例:通过 Groq API 使用 Llama 4 from groq import Groq client = Groq(api_key="你的Groq API Key") chat_completion = client.chat.completions.create( messages=[ { "role": "user", "content": "用中文介绍一下 Llama 4 的主要优势", } ], model="llama4-scout-17b-16e-instruct", # Llama 4 Scout ) print(chat_completion.choices[0].message.content)

常见问题与解决方案

Q:下载 Llama 4 模型速度很慢怎么办?

A:Llama 4 的模型文件托管在 Hugging Face 和 Meta 官方服务器,在中国大陆访问这些服务速度较慢。推荐使用 VPN07 的 1000Mbps 高速节点,可以将下载速度从几十KB/s 提升到几十MB/s,大幅缩短等待时间。

Q:Ollama 报错"model not found"?

A:确认 Ollama 版本已更新到 0.5.0 以上(ollama --version),旧版本可能不支持 Llama 4。运行 ollama pull llama4:scout 时需要访问 registry.ollama.ai。

Q:运行 Llama 4 时显存不足怎么办?

A:选择更高压缩比的量化版本(如 Q2_K 代替 Q4_K_M),或使用 CPU + 内存模式运行(在 Ollama 中默认支持,速度较慢但不需要显卡)。

Q:Llama 4 不支持中文怎么办?

A:Llama 4 原生支持多语言包括中文。如果回复主要是英文,可以在系统提示词(System Prompt)中添加:"请始终用中文回复我的问题"。

还想体验更多开源大模型?
Llama 4 / DeepSeek / Qwen / Gemma 一站下载
查看全部模型 →

下载 Llama 4,网速是关键

VPN07 1000Mbps 千兆节点,让40GB模型20分钟下完

¥9/月
超低月费
1000Mbps
千兆带宽
70+国家
全球节点
30天
无条件退款

相关文章推荐

月费¥9 · 运营十年
免费试用 VPN07