Llama 4 全平台安裝攻略：Windows/Mac/Linux/手機 2026

尋找 Llama 4 及更多開源大模型？

前往 VPN07 開源大語言模型下載中心，精選 10 款主流 LLM，一鍵複製安裝命令

前往模型庫 →

教學說明：Meta 於 2026 年初發布的 Llama 4 系列擁有 Scout（17B/109B）和 Maverick（17B/400B）兩大版本，是目前全球開源生態最完整的大語言模型系列。本教學完整覆蓋 Windows、macOS、Linux、Android、iOS 五大平台的安裝方式，無論你用什麼設備，都能找到適合的部署方案。

Llama 4 是什麼？2026 年最值得關注的開源模型

Llama 4 是 Meta（原 Facebook）發布的第四代開源大語言模型系列，在 AI 社群掀起巨大迴響。與前代相比，Llama 4 採用了全新的 MoE（混合專家）架構，推理效率大幅提升。Scout 版本擁有多達 1000 萬 Token 的超長上下文視窗，Maverick 版本在多項基準測試中達到接近頂級閉源模型的水準，卻能在消費級硬體上執行。

Llama 4 系列的最大優勢在於其龐大的開源生態系統。全球超過 10 萬個開源專案基於 Llama 構建，各種微調版本、工具整合、應用框架層出不窮。無論是程式開發輔助、文件分析、日常對話還是自動化任務，Llama 4 都有豐富的社群資源可供參考。

🔓

完全開源免費

Llama 4 授權允許商業使用，無隱藏費用

🌍

最大開源生態

10 萬+ 開源專案支援，工具整合最豐富

⚡

MoE 高效架構

活躍參數 17B，整體效能接近 400B 旗艦

硬體需求一覽：哪個版本適合你？

Llama 4 提供多個尺寸版本，從低規設備到高端工作站均有對應選擇：

版本	VRAM	RAM（CPU）	適用場景
llama4:scout	8GB+	12GB+	日常對話、文件分析首選
llama4:maverick	24GB+	48GB+	高品質推理 / RTX 4090
llama4:scout-q4	4GB+	8GB+	輕量版，低規設備可用

Apple Silicon 用戶的最佳選擇

M1/M2/M3/M4 系列 Mac 採用統一記憶體架構，16GB 統一記憶體相當於 16GB VRAM，可以流暢運行 llama4:scout。M4 Max（128GB）甚至可以跑 Maverick 完整版。這是目前價效比最高的本地 AI 方案之一。

Windows 安裝 Llama 4 完整教學

Windows 用戶推薦使用 Ollama 進行安裝，這是目前最簡便的本地 LLM 部署工具：

Windows 安裝步驟

下載並安裝 Ollama

前往 ollama.com 下載 Windows 版安裝程式（OllamaSetup.exe）。執行後 Ollama 會在系統背景自動啟動，並在工作列顯示圖示。

開啟 PowerShell 或命令提示字元，下載 Llama 4

ollama pull llama4

此命令會下載 Llama 4 Scout 版本（約 8-15GB），請確保網路穩定。建議搭配 VPN07 使用，1000Mbps 千兆頻寬大幅加速下載。

開始與 Llama 4 對話

ollama run llama4

成功執行後，你會看到命令列提示符 >>>，直接輸入問題即可開始對話。

安裝 Open WebUI 獲得圖形介面

如果你不喜歡命令列操作，可以安裝 Open WebUI 獲得類似 ChatGPT 的圖形介面。需要先安裝 Docker Desktop：

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

安裝完成後，開啟瀏覽器前往 http://localhost:3000 即可使用圖形介面聊天。

macOS 安裝 Llama 4 完整教學

macOS 用戶有兩種安裝方式：Homebrew 命令列安裝或直接下載 Mac App。

方法一：Homebrew 安裝（推薦）

# 安裝 Ollama
brew install ollama

# 啟動 Ollama 服務
ollama serve &

# 下載並執行 Llama 4
ollama run llama4

方法二：直接下載 Mac App

前往 ollama.com/download 下載 macOS 版本（.dmg 文件），拖入 Applications 資料夾後直接執行，無需命令列即可啟動。接著在終端機執行 ollama run llama4 即可。

M4 Max

最快推理速度

M2/M3

16GB+ 流暢執行

Intel Mac

CPU 推理可用

Metal GPU

自動加速支援

Linux 安裝 Llama 4 完整教學

Linux 是運行本地 LLM 最穩定的平台，支援最完整的 GPU 加速方案：

Ubuntu / Debian 安裝

# 一鍵安裝 Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 設定 systemd 服務（開機自啟）
sudo systemctl enable ollama
sudo systemctl start ollama

# 下載 Llama 4
ollama pull llama4

# 執行
ollama run llama4

NVIDIA GPU 加速設定

擁有 NVIDIA 顯示卡的用戶可以安裝 CUDA 驅動以獲得最佳效能：

# 安裝 NVIDIA Container Toolkit（用於 Docker 加速）
distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \
  && curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add - \
  && curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt-get update && sudo apt-get install -y nvidia-container-toolkit

Ollama 安裝後會自動偵測 NVIDIA GPU，無需額外配置即可啟用 GPU 加速。

Android 手機安裝 Llama 4

Android 用戶可透過 Termux + Ollama 在手機上執行精簡版 Llama 4，適合探索本地 AI 的樂趣：

Android 安裝步驟

從 F-Droid 下載並安裝 Termux（不要從 Google Play 安裝，版本較舊）

在 Termux 中執行以下命令：

pkg update && pkg upgrade
pkg install curl
curl -fsSL https://ollama.com/install.sh | sh
ollama pull llama4:scout-q4  # 下載輕量版
ollama run llama4:scout-q4

建議選擇 llama4:scout-q4（4位元量化版），記憶體需求約 4-6GB，高端 Android 旗艦機（12GB RAM 以上）可流暢執行

Android 推薦設備

建議使用搭載驍龍 8 Gen 3 或天璣 9300 的旗艦機，並確保至少有 12GB RAM。驍龍 8 Elite 的 NPU 可以為部分 AI 工作負載提供額外加速。

iPhone / iOS 安裝 Llama 4

iOS 用戶可以透過兩種方式在 iPhone 上體驗 Llama 4：

方法一：使用 Enchanted App（推薦）

Enchanted 是 iOS 上最受歡迎的 Ollama 前端應用，在 App Store 可免費下載。配合家中電腦上的 Ollama 服務，可以遠端調用 Llama 4 進行對話。

# 在電腦端設定 Ollama 允許遠端連線
OLLAMA_HOST=0.0.0.0 ollama serve

接著在 Enchanted App 中填入電腦的 IP 地址即可連線使用。

方法二：使用 LLM Farm 本機執行

LLM Farm 支援在 iPhone 本機直接執行小型 LLM，從 App Store 安裝後，可下載 Llama 4 的超輕量版（1-3B 參數）直接在手機上離線使用，無需聯網。

效能優化：讓 Llama 4 跑得更快

安裝完成後，以下技巧可以大幅提升 Llama 4 的執行效能：

💡 選擇正確的量化版本

Q4 量化版在維持 90% 以上品質的同時，記憶體需求減少一半。對大多數用戶而言，ollama pull llama4:scout 下載的即為最佳量化版本。

💡 設定 GPU 記憶體層數

通過環境變數調整 GPU 使用層數：OLLAMA_NUM_GPU=99 ollama run llama4，確保盡量多的模型層載入 GPU 記憶體，大幅提升生成速度。

💡 啟用並行請求處理

多人同時使用時，設定 OLLAMA_NUM_PARALLEL=4 允許同時處理多個請求，提升系統整體吞吐量。

為什麼模型下載需要優質網路？

Llama 4 Scout 的完整版本大小約 8-15GB，Maverick 版本更達 30GB 以上。在不穩定的網路環境下，下載這些大文件可能需要數小時，且容易中斷失敗。Hugging Face 和 Ollama 的模型庫在亞太地區訪問速度參差不齊，高品質的網路連線變得尤為重要。

VPN07 提供 1000Mbps 千兆頻寬，連接 Hugging Face 和 Ollama 官方模型庫時速度穩定，一個 15GB 的模型文件通常在 5 分鐘內就能下載完成。更重要的是，VPN07 全球 70+ 個國家節點確保你能找到延遲最低的節點，讓 AI API 調用也飛速響應。

📊 下載速度對比測試

1.2 Mbps

一般網路

15GB 需 28小時

50 Mbps

一般 VPN

15GB 需 40分鐘

1000 Mbps

VPN07

15GB 僅需 2分鐘

常見問題 FAQ

Q：Llama 4 和 GPT-4 相比如何？

Llama 4 Maverick 在多項基準測試中接近 GPT-4 的水準，且完全免費、可離線使用、資料不離本機。Scout 版本作為輕量選擇，日常對話能力也相當出色，但在複雜推理任務上略遜一籌。

Q：下載後可以離線使用嗎？

可以！Llama 4 一旦下載到本機，即可完全離線使用，資料不會傳送到任何伺服器。這也是本地 AI 最大的隱私優勢。

Q：Llama 4 支援繁體中文嗎？

支援，但繁體中文的流暢度略遜於 Qwen3.5 等專門針對中文優化的模型。如果你主要使用繁體中文，可以在 Ollama 的 Modelfile 中設定系統提示，要求模型以繁體中文回應。

Q：能用 Llama 4 建立自己的 AI 應用嗎？

完全可以！Ollama 提供與 OpenAI 相容的 API，任何支援 ChatGPT API 的應用都可以直接替換為本地 Llama 4，實現零成本的 AI 整合。

想在本機執行更多開源 AI 大模型？

VPN07 精選 10 款主流 LLM，含 DeepSeek R1、Qwen3.5、Llama 4 等，下載連結與安裝命令一應俱全