Llama 4 全平台安裝攻略:Windows / Mac / Linux / 手機一次搞定 2026
教學說明:Meta 於 2026 年初發布的 Llama 4 系列擁有 Scout(17B/109B)和 Maverick(17B/400B)兩大版本,是目前全球開源生態最完整的大語言模型系列。本教學完整覆蓋 Windows、macOS、Linux、Android、iOS 五大平台的安裝方式,無論你用什麼設備,都能找到適合的部署方案。
Llama 4 是什麼?2026 年最值得關注的開源模型
Llama 4 是 Meta(原 Facebook)發布的第四代開源大語言模型系列,在 AI 社群掀起巨大迴響。與前代相比,Llama 4 採用了全新的 MoE(混合專家)架構,推理效率大幅提升。Scout 版本擁有多達 1000 萬 Token 的超長上下文視窗,Maverick 版本在多項基準測試中達到接近頂級閉源模型的水準,卻能在消費級硬體上執行。
Llama 4 系列的最大優勢在於其龐大的開源生態系統。全球超過 10 萬個開源專案基於 Llama 構建,各種微調版本、工具整合、應用框架層出不窮。無論是程式開發輔助、文件分析、日常對話還是自動化任務,Llama 4 都有豐富的社群資源可供參考。
完全開源免費
Llama 4 授權允許商業使用,無隱藏費用
最大開源生態
10 萬+ 開源專案支援,工具整合最豐富
MoE 高效架構
活躍參數 17B,整體效能接近 400B 旗艦
硬體需求一覽:哪個版本適合你?
Llama 4 提供多個尺寸版本,從低規設備到高端工作站均有對應選擇:
| 版本 | VRAM | RAM(CPU) | 適用場景 |
|---|---|---|---|
| llama4:scout | 8GB+ | 12GB+ | 日常對話、文件分析首選 |
| llama4:maverick | 24GB+ | 48GB+ | 高品質推理 / RTX 4090 |
| llama4:scout-q4 | 4GB+ | 8GB+ | 輕量版,低規設備可用 |
Apple Silicon 用戶的最佳選擇
M1/M2/M3/M4 系列 Mac 採用統一記憶體架構,16GB 統一記憶體相當於 16GB VRAM,可以流暢運行 llama4:scout。M4 Max(128GB)甚至可以跑 Maverick 完整版。這是目前價效比最高的本地 AI 方案之一。
Windows 安裝 Llama 4 完整教學
Windows 用戶推薦使用 Ollama 進行安裝,這是目前最簡便的本地 LLM 部署工具:
Windows 安裝步驟
下載並安裝 Ollama
前往 ollama.com 下載 Windows 版安裝程式(OllamaSetup.exe)。執行後 Ollama 會在系統背景自動啟動,並在工作列顯示圖示。
開啟 PowerShell 或命令提示字元,下載 Llama 4
ollama pull llama4
此命令會下載 Llama 4 Scout 版本(約 8-15GB),請確保網路穩定。建議搭配 VPN07 使用,1000Mbps 千兆頻寬大幅加速下載。
開始與 Llama 4 對話
ollama run llama4
成功執行後,你會看到命令列提示符 >>>,直接輸入問題即可開始對話。
安裝 Open WebUI 獲得圖形介面
如果你不喜歡命令列操作,可以安裝 Open WebUI 獲得類似 ChatGPT 的圖形介面。需要先安裝 Docker Desktop:
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
安裝完成後,開啟瀏覽器前往 http://localhost:3000 即可使用圖形介面聊天。
macOS 安裝 Llama 4 完整教學
macOS 用戶有兩種安裝方式:Homebrew 命令列安裝或直接下載 Mac App。
方法一:Homebrew 安裝(推薦)
# 安裝 Ollama
brew install ollama
# 啟動 Ollama 服務
ollama serve &
# 下載並執行 Llama 4
ollama run llama4
方法二:直接下載 Mac App
前往 ollama.com/download 下載 macOS 版本(.dmg 文件),拖入 Applications 資料夾後直接執行,無需命令列即可啟動。接著在終端機執行 ollama run llama4 即可。
Linux 安裝 Llama 4 完整教學
Linux 是運行本地 LLM 最穩定的平台,支援最完整的 GPU 加速方案:
Ubuntu / Debian 安裝
# 一鍵安裝 Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 設定 systemd 服務(開機自啟)
sudo systemctl enable ollama
sudo systemctl start ollama
# 下載 Llama 4
ollama pull llama4
# 執行
ollama run llama4
NVIDIA GPU 加速設定
擁有 NVIDIA 顯示卡的用戶可以安裝 CUDA 驅動以獲得最佳效能:
# 安裝 NVIDIA Container Toolkit(用於 Docker 加速)
distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \
&& curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add - \
&& curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt-get update && sudo apt-get install -y nvidia-container-toolkit
Ollama 安裝後會自動偵測 NVIDIA GPU,無需額外配置即可啟用 GPU 加速。
Android 手機安裝 Llama 4
Android 用戶可透過 Termux + Ollama 在手機上執行精簡版 Llama 4,適合探索本地 AI 的樂趣:
Android 安裝步驟
從 F-Droid 下載並安裝 Termux(不要從 Google Play 安裝,版本較舊)
在 Termux 中執行以下命令:
pkg update && pkg upgrade
pkg install curl
curl -fsSL https://ollama.com/install.sh | sh
ollama pull llama4:scout-q4 # 下載輕量版
ollama run llama4:scout-q4
建議選擇 llama4:scout-q4(4位元量化版),記憶體需求約 4-6GB,高端 Android 旗艦機(12GB RAM 以上)可流暢執行
Android 推薦設備
建議使用搭載驍龍 8 Gen 3 或天璣 9300 的旗艦機,並確保至少有 12GB RAM。驍龍 8 Elite 的 NPU 可以為部分 AI 工作負載提供額外加速。
iPhone / iOS 安裝 Llama 4
iOS 用戶可以透過兩種方式在 iPhone 上體驗 Llama 4:
方法一:使用 Enchanted App(推薦)
Enchanted 是 iOS 上最受歡迎的 Ollama 前端應用,在 App Store 可免費下載。配合家中電腦上的 Ollama 服務,可以遠端調用 Llama 4 進行對話。
# 在電腦端設定 Ollama 允許遠端連線
OLLAMA_HOST=0.0.0.0 ollama serve
接著在 Enchanted App 中填入電腦的 IP 地址即可連線使用。
方法二:使用 LLM Farm 本機執行
LLM Farm 支援在 iPhone 本機直接執行小型 LLM,從 App Store 安裝後,可下載 Llama 4 的超輕量版(1-3B 參數)直接在手機上離線使用,無需聯網。
效能優化:讓 Llama 4 跑得更快
安裝完成後,以下技巧可以大幅提升 Llama 4 的執行效能:
💡 選擇正確的量化版本
Q4 量化版在維持 90% 以上品質的同時,記憶體需求減少一半。對大多數用戶而言,ollama pull llama4:scout 下載的即為最佳量化版本。
💡 設定 GPU 記憶體層數
通過環境變數調整 GPU 使用層數:OLLAMA_NUM_GPU=99 ollama run llama4,確保盡量多的模型層載入 GPU 記憶體,大幅提升生成速度。
💡 啟用並行請求處理
多人同時使用時,設定 OLLAMA_NUM_PARALLEL=4 允許同時處理多個請求,提升系統整體吞吐量。
為什麼模型下載需要優質網路?
Llama 4 Scout 的完整版本大小約 8-15GB,Maverick 版本更達 30GB 以上。在不穩定的網路環境下,下載這些大文件可能需要數小時,且容易中斷失敗。Hugging Face 和 Ollama 的模型庫在亞太地區訪問速度參差不齊,高品質的網路連線變得尤為重要。
VPN07 提供 1000Mbps 千兆頻寬,連接 Hugging Face 和 Ollama 官方模型庫時速度穩定,一個 15GB 的模型文件通常在 5 分鐘內就能下載完成。更重要的是,VPN07 全球 70+ 個國家節點確保你能找到延遲最低的節點,讓 AI API 調用也飛速響應。
📊 下載速度對比測試
常見問題 FAQ
Q:Llama 4 和 GPT-4 相比如何?
Llama 4 Maverick 在多項基準測試中接近 GPT-4 的水準,且完全免費、可離線使用、資料不離本機。Scout 版本作為輕量選擇,日常對話能力也相當出色,但在複雜推理任務上略遜一籌。
Q:下載後可以離線使用嗎?
可以!Llama 4 一旦下載到本機,即可完全離線使用,資料不會傳送到任何伺服器。這也是本地 AI 最大的隱私優勢。
Q:Llama 4 支援繁體中文嗎?
支援,但繁體中文的流暢度略遜於 Qwen3.5 等專門針對中文優化的模型。如果你主要使用繁體中文,可以在 Ollama 的 Modelfile 中設定系統提示,要求模型以繁體中文回應。
Q:能用 Llama 4 建立自己的 AI 應用嗎?
完全可以!Ollama 提供與 OpenAI 相容的 API,任何支援 ChatGPT API 的應用都可以直接替換為本地 Llama 4,實現零成本的 AI 整合。
VPN07 — Llama 4 下載最佳加速搭檔
千兆頻寬加速下載 · 70+國家節點 · 十年穩定服務
Llama 4 模型文件動輒 10GB 以上,下載速度至關重要。VPN07 提供 1000Mbps 千兆頻寬,連接 Ollama 官方模型庫、Hugging Face 飛速穩定。70+ 國家節點,運營十年的可信品牌,30 天退款保障,$1.5/月輕鬆享受頂級網路。