VPN07

Llama 4 全平台安裝攻略:Windows / Mac / Linux / 手機一次搞定 2026

2026-03-05 閱讀約 20 分鐘 Llama 4 Meta AI 本地部署

尋找 Llama 4 及更多開源大模型?

前往 VPN07 開源大語言模型下載中心,精選 10 款主流 LLM,一鍵複製安裝命令

前往模型庫 →

教學說明:Meta 於 2026 年初發布的 Llama 4 系列擁有 Scout(17B/109B)和 Maverick(17B/400B)兩大版本,是目前全球開源生態最完整的大語言模型系列。本教學完整覆蓋 Windows、macOS、Linux、Android、iOS 五大平台的安裝方式,無論你用什麼設備,都能找到適合的部署方案。

Llama 4 是什麼?2026 年最值得關注的開源模型

Llama 4 是 Meta(原 Facebook)發布的第四代開源大語言模型系列,在 AI 社群掀起巨大迴響。與前代相比,Llama 4 採用了全新的 MoE(混合專家)架構,推理效率大幅提升。Scout 版本擁有多達 1000 萬 Token 的超長上下文視窗,Maverick 版本在多項基準測試中達到接近頂級閉源模型的水準,卻能在消費級硬體上執行。

Llama 4 系列的最大優勢在於其龐大的開源生態系統。全球超過 10 萬個開源專案基於 Llama 構建,各種微調版本、工具整合、應用框架層出不窮。無論是程式開發輔助、文件分析、日常對話還是自動化任務,Llama 4 都有豐富的社群資源可供參考。

🔓

完全開源免費

Llama 4 授權允許商業使用,無隱藏費用

🌍

最大開源生態

10 萬+ 開源專案支援,工具整合最豐富

MoE 高效架構

活躍參數 17B,整體效能接近 400B 旗艦

硬體需求一覽:哪個版本適合你?

Llama 4 提供多個尺寸版本,從低規設備到高端工作站均有對應選擇:

版本 VRAM RAM(CPU) 適用場景
llama4:scout 8GB+ 12GB+ 日常對話、文件分析首選
llama4:maverick 24GB+ 48GB+ 高品質推理 / RTX 4090
llama4:scout-q4 4GB+ 8GB+ 輕量版,低規設備可用

Apple Silicon 用戶的最佳選擇

M1/M2/M3/M4 系列 Mac 採用統一記憶體架構,16GB 統一記憶體相當於 16GB VRAM,可以流暢運行 llama4:scout。M4 Max(128GB)甚至可以跑 Maverick 完整版。這是目前價效比最高的本地 AI 方案之一。

Windows 安裝 Llama 4 完整教學

Windows 用戶推薦使用 Ollama 進行安裝,這是目前最簡便的本地 LLM 部署工具:

Windows 安裝步驟

1

下載並安裝 Ollama

前往 ollama.com 下載 Windows 版安裝程式(OllamaSetup.exe)。執行後 Ollama 會在系統背景自動啟動,並在工作列顯示圖示。

2

開啟 PowerShell 或命令提示字元,下載 Llama 4

ollama pull llama4

此命令會下載 Llama 4 Scout 版本(約 8-15GB),請確保網路穩定。建議搭配 VPN07 使用,1000Mbps 千兆頻寬大幅加速下載。

3

開始與 Llama 4 對話

ollama run llama4

成功執行後,你會看到命令列提示符 >>>,直接輸入問題即可開始對話。

安裝 Open WebUI 獲得圖形介面

如果你不喜歡命令列操作,可以安裝 Open WebUI 獲得類似 ChatGPT 的圖形介面。需要先安裝 Docker Desktop:

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

安裝完成後,開啟瀏覽器前往 http://localhost:3000 即可使用圖形介面聊天。

macOS 安裝 Llama 4 完整教學

macOS 用戶有兩種安裝方式:Homebrew 命令列安裝或直接下載 Mac App。

方法一:Homebrew 安裝(推薦)

# 安裝 Ollama
brew install ollama

# 啟動 Ollama 服務
ollama serve &

# 下載並執行 Llama 4
ollama run llama4

方法二:直接下載 Mac App

前往 ollama.com/download 下載 macOS 版本(.dmg 文件),拖入 Applications 資料夾後直接執行,無需命令列即可啟動。接著在終端機執行 ollama run llama4 即可。

M4 Max
最快推理速度
M2/M3
16GB+ 流暢執行
Intel Mac
CPU 推理可用
Metal GPU
自動加速支援

Linux 安裝 Llama 4 完整教學

Linux 是運行本地 LLM 最穩定的平台,支援最完整的 GPU 加速方案:

Ubuntu / Debian 安裝

# 一鍵安裝 Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 設定 systemd 服務(開機自啟)
sudo systemctl enable ollama
sudo systemctl start ollama

# 下載 Llama 4
ollama pull llama4

# 執行
ollama run llama4

NVIDIA GPU 加速設定

擁有 NVIDIA 顯示卡的用戶可以安裝 CUDA 驅動以獲得最佳效能:

# 安裝 NVIDIA Container Toolkit(用於 Docker 加速)
distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \
&& curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add - \
&& curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt-get update && sudo apt-get install -y nvidia-container-toolkit

Ollama 安裝後會自動偵測 NVIDIA GPU,無需額外配置即可啟用 GPU 加速。

Android 手機安裝 Llama 4

Android 用戶可透過 Termux + Ollama 在手機上執行精簡版 Llama 4,適合探索本地 AI 的樂趣:

Android 安裝步驟

1

從 F-Droid 下載並安裝 Termux(不要從 Google Play 安裝,版本較舊)

2

在 Termux 中執行以下命令:

pkg update && pkg upgrade
pkg install curl
curl -fsSL https://ollama.com/install.sh | sh
ollama pull llama4:scout-q4 # 下載輕量版
ollama run llama4:scout-q4
3

建議選擇 llama4:scout-q4(4位元量化版),記憶體需求約 4-6GB,高端 Android 旗艦機(12GB RAM 以上)可流暢執行

Android 推薦設備

建議使用搭載驍龍 8 Gen 3 或天璣 9300 的旗艦機,並確保至少有 12GB RAM。驍龍 8 Elite 的 NPU 可以為部分 AI 工作負載提供額外加速。

iPhone / iOS 安裝 Llama 4

iOS 用戶可以透過兩種方式在 iPhone 上體驗 Llama 4:

方法一:使用 Enchanted App(推薦)

Enchanted 是 iOS 上最受歡迎的 Ollama 前端應用,在 App Store 可免費下載。配合家中電腦上的 Ollama 服務,可以遠端調用 Llama 4 進行對話。

# 在電腦端設定 Ollama 允許遠端連線
OLLAMA_HOST=0.0.0.0 ollama serve

接著在 Enchanted App 中填入電腦的 IP 地址即可連線使用。

方法二:使用 LLM Farm 本機執行

LLM Farm 支援在 iPhone 本機直接執行小型 LLM,從 App Store 安裝後,可下載 Llama 4 的超輕量版(1-3B 參數)直接在手機上離線使用,無需聯網。

效能優化:讓 Llama 4 跑得更快

安裝完成後,以下技巧可以大幅提升 Llama 4 的執行效能:

💡 選擇正確的量化版本

Q4 量化版在維持 90% 以上品質的同時,記憶體需求減少一半。對大多數用戶而言,ollama pull llama4:scout 下載的即為最佳量化版本。

💡 設定 GPU 記憶體層數

通過環境變數調整 GPU 使用層數:OLLAMA_NUM_GPU=99 ollama run llama4,確保盡量多的模型層載入 GPU 記憶體,大幅提升生成速度。

💡 啟用並行請求處理

多人同時使用時,設定 OLLAMA_NUM_PARALLEL=4 允許同時處理多個請求,提升系統整體吞吐量。

為什麼模型下載需要優質網路?

Llama 4 Scout 的完整版本大小約 8-15GB,Maverick 版本更達 30GB 以上。在不穩定的網路環境下,下載這些大文件可能需要數小時,且容易中斷失敗。Hugging Face 和 Ollama 的模型庫在亞太地區訪問速度參差不齊,高品質的網路連線變得尤為重要。

VPN07 提供 1000Mbps 千兆頻寬,連接 Hugging Face 和 Ollama 官方模型庫時速度穩定,一個 15GB 的模型文件通常在 5 分鐘內就能下載完成。更重要的是,VPN07 全球 70+ 個國家節點確保你能找到延遲最低的節點,讓 AI API 調用也飛速響應。

📊 下載速度對比測試

1.2 Mbps
一般網路
15GB 需 28小時
50 Mbps
一般 VPN
15GB 需 40分鐘
1000 Mbps
VPN07
15GB 僅需 2分鐘

常見問題 FAQ

Q:Llama 4 和 GPT-4 相比如何?

Llama 4 Maverick 在多項基準測試中接近 GPT-4 的水準,且完全免費、可離線使用、資料不離本機。Scout 版本作為輕量選擇,日常對話能力也相當出色,但在複雜推理任務上略遜一籌。

Q:下載後可以離線使用嗎?

可以!Llama 4 一旦下載到本機,即可完全離線使用,資料不會傳送到任何伺服器。這也是本地 AI 最大的隱私優勢。

Q:Llama 4 支援繁體中文嗎?

支援,但繁體中文的流暢度略遜於 Qwen3.5 等專門針對中文優化的模型。如果你主要使用繁體中文,可以在 Ollama 的 Modelfile 中設定系統提示,要求模型以繁體中文回應。

Q:能用 Llama 4 建立自己的 AI 應用嗎?

完全可以!Ollama 提供與 OpenAI 相容的 API,任何支援 ChatGPT API 的應用都可以直接替換為本地 Llama 4,實現零成本的 AI 整合。

想在本機執行更多開源 AI 大模型?

VPN07 精選 10 款主流 LLM,含 DeepSeek R1、Qwen3.5、Llama 4 等,下載連結與安裝命令一應俱全

前往模型庫 →

VPN07 — Llama 4 下載最佳加速搭檔

千兆頻寬加速下載 · 70+國家節點 · 十年穩定服務

Llama 4 模型文件動輒 10GB 以上,下載速度至關重要。VPN07 提供 1000Mbps 千兆頻寬,連接 Ollama 官方模型庫、Hugging Face 飛速穩定。70+ 國家節點,運營十年的可信品牌,30 天退款保障,$1.5/月輕鬆享受頂級網路。

$1.5/月
超低月費
1000Mbps
千兆頻寬
70+
國家節點
30天
退款保障

相關文章推薦

月費$1.5 · 運營十年
免費試用 VPN07