Ollama 完整教學 2026:10 款開源 AI 一鍵管理、API 串接與效能調校全指南
教學說明:Ollama 是目前最受歡迎的本地 LLM 管理工具,一個命令就能下載、執行和管理包括 DeepSeek-R1、Qwen3.5、Llama 4、Gemma 3 在內的所有主流開源大模型。本教學從安裝到進階使用全面覆蓋:跨平台安裝、模型管理命令大全、REST API 串接開發、Open WebUI 圖形介面配置,以及效能調優技巧,幫助你把 Ollama 用到極致。
為什麼選擇 Ollama?本地 AI 工具橫向比較
在各種本地 LLM 管理工具中,Ollama 憑藉其極簡的使用體驗和強大的社群支援脫穎而出。以下是主流工具的比較:
| 工具 | 安裝難度 | API 支援 | 模型庫 | 推薦對象 |
|---|---|---|---|---|
| Ollama ⭐ | 超簡單 | 完整 REST API | 200+ 模型 | 所有用戶首選 |
| LM Studio | 簡單(GUI) | OpenAI 相容 | HuggingFace | 偏好圖形介面者 |
| llama.cpp | 需編譯 | 有 | 手動管理 | 進階開發者 |
| Jan.ai | 簡單(GUI) | OpenAI 相容 | 有限 | 桌面應用使用者 |
3 秒安裝完成
一行命令搞定,無需配置 Python 環境
OpenAI 相容 API
直接替換 GPT-4 的 API 端點,零改動整合
200+ 模型支援
官方模型庫持續更新,新模型發布即可使用
Ollama 全平台安裝教學:Windows / macOS / Linux
Windows 安裝
前往 ollama.com 下載 OllamaSetup.exe,執行安裝程式後 Ollama 會自動在系統背景常駐。安裝完成後開啟 PowerShell 或命令提示字元即可使用。
# 確認安裝成功
ollama --version
# 下載第一個模型(以 DeepSeek-R1 7B 為例)
ollama pull deepseek-r1:7b
# 開始對話
ollama run deepseek-r1:7b
💡 Windows 用戶建議同時安裝 Windows Terminal,體驗更好的命令列介面。
macOS 安裝
macOS 有兩種安裝方式,推薦 Homebrew 方式(方便更新):
# 方式一:Homebrew 安裝(推薦)
brew install ollama
brew services start ollama
# 方式二:直接下載 .dmg 安裝程式
# 前往 ollama.com/download/mac 下載
# 安裝 Qwen3.5(繁體中文能力最強)
ollama pull qwen3
ollama run qwen3
💡 Apple M 系列晶片用戶:統一記憶體架構讓 Ollama 的效能遠超同規格 PC。
Linux 安裝
# 一鍵安裝腳本
curl -fsSL https://ollama.com/install.sh | sh
# 設定開機自動啟動
sudo systemctl enable ollama
sudo systemctl start ollama
# 確認服務狀態
sudo systemctl status ollama
💡 Linux + NVIDIA GPU 組合效能最強,安裝前確保 CUDA 驅動已正確安裝。
Ollama 常用命令完整大全
掌握這些命令,讓你輕鬆管理所有本地 AI 模型:
📥 模型下載與管理
# 下載模型
ollama pull deepseek-r1:7b
ollama pull qwen3
ollama pull llama4
ollama pull gemma3
ollama pull phi4
ollama pull glm4
# 列出已安裝模型
ollama list
# 刪除模型
ollama rm deepseek-r1:7b
# 複製模型(重命名)
ollama cp llama4 my-llama
▶️ 執行與互動
# 基本執行
ollama run deepseek-r1:7b
# 單次輸入(非互動模式)
ollama run qwen3 "你好,請介紹台灣"
# 帶系統提示的執行
ollama run qwen3 --system "你是專業程式設計師"
# 查看執行中的模型
ollama ps
# 停止執行中的模型
ollama stop deepseek-r1:7b
# 查看模型詳細資訊
ollama show deepseek-r1:7b
常用模型的 Ollama 名稱速查
DeepSeek 推理王
通義千問 3.5
Meta Llama 4
Google Gemma 3
Microsoft Phi-4
智谱 GLM-4
Mistral Large 2
MiniCPM 面壁
Yi-34B 零一萬物
Ollama REST API 完整使用指南
Ollama 內建 REST API 服務(預設在 http://localhost:11434),完全相容 OpenAI API 格式,讓你能輕鬆整合到任何應用程式中:
基本 API 呼叫範例
# 直接呼叫 Generate API
curl http://localhost:11434/api/generate -d '{
"model": "deepseek-r1:7b",
"prompt": "請用繁體中文介紹量子電腦",
"stream": false
}'
# Chat API(多輪對話)
curl http://localhost:11434/api/chat -d '{
"model": "qwen3",
"messages": [
{"role": "user", "content": "你好!"}
]
}'
# 列出所有已安裝模型
curl http://localhost:11434/api/tags
OpenAI 相容 API(直接替換 GPT-4)
Ollama 支援 OpenAI 相容端點,只需更改 base_url 即可把你的 GPT-4 應用切換到本地模型:
# Python 範例(使用 openai 套件)
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama" # 任意填寫
)
response = client.chat.completions.create(
model="deepseek-r1:7b",
messages=[
{"role": "user", "content": "請解釋 Transformer 架構"}
]
)
print(response.choices[0].message.content)
# JavaScript / Node.js 範例
const response = await fetch('http://localhost:11434/v1/chat/completions', {
method: 'POST',
headers: { 'Content-Type': 'application/json' },
body: JSON.stringify({
model: 'qwen3',
messages: [{ role: 'user', content: '用繁體中文寫一首詩' }]
})
});
const data = await response.json();
console.log(data.choices[0].message.content);
Open WebUI:讓 Ollama 有 ChatGPT 圖形介面
Open WebUI 是最受歡迎的 Ollama 前端圖形介面,提供和 ChatGPT 完全相同的使用體驗,支援多模型切換、對話歷史、系統提示設定等進階功能。
Docker 一鍵安裝 Open WebUI
前置需求:已安裝 Docker Desktop(Windows/Mac)或 Docker Engine(Linux):
# 一行命令啟動 Open WebUI
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
# 啟動後開啟瀏覽器前往:
# http://localhost:3000
首次登入需建立管理員帳號。進入後在「設定 → 模型」中,你安裝的所有 Ollama 模型都會自動出現。
Ollama 效能調優:讓你的本地 AI 更快更順
透過以下環境變數和設定,可以大幅提升 Ollama 的執行效能:
重要環境變數設定
# GPU 層數控制(增加可提升速度,但需要更多 VRAM)
OLLAMA_NUM_GPU=35
# 保持模型在記憶體中(避免每次重新載入)
OLLAMA_KEEP_ALIVE=24h
# 增加並行請求數(多用戶場景)
OLLAMA_NUM_PARALLEL=4
# 最大模型數量
OLLAMA_MAX_LOADED_MODELS=3
# Linux 設定方式
sudo systemctl edit ollama
# 加入:
[Service]
Environment="OLLAMA_NUM_GPU=35"
Environment="OLLAMA_KEEP_ALIVE=24h"
Modelfile 自訂模型設定
建立 Modelfile 可以為模型設定預設行為、系統提示和溫度參數:
# 建立 Modelfile 檔案
cat > Modelfile << 'EOF'
FROM deepseek-r1:7b
# 設定系統提示
SYSTEM 你是一個專業的繁體中文助理,善長程式設計和技術解說。
# 設定參數
PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER num_ctx 4096
EOF
# 從 Modelfile 建立自訂模型
ollama create tw-assistant -f ./Modelfile
# 執行自訂模型
ollama run tw-assistant
遠端存取 Ollama:從手機和其他電腦使用本地 AI
預設情況下 Ollama 只允許本機存取(127.0.0.1),以下方法可以讓區域網路內的其他設備也能使用你的本地 AI:
開啟區域網路存取
# macOS 設定(修改服務啟動選項)
launchctl setenv OLLAMA_HOST "0.0.0.0"
# Linux 設定
sudo systemctl edit ollama
[Service]
Environment="OLLAMA_HOST=0.0.0.0"
# 確認 IP 地址
ip addr # Linux
ifconfig # macOS
# 其他設備連接(以 Ollama API 或 Open WebUI)
# 例:手機瀏覽器開啟 http://192.168.1.100:3000
為什麼下載模型需要 VPN07?
Ollama 的模型庫和 Hugging Face 都是國際服務,從台灣連接速度受到路由影響,可能只有 3-10 MB/s。使用 VPN07 後,可以連接最近的優質線路,速度提升至 80-120 MB/s(接近 1000Mbps 千兆上限)。下載一個 7B 模型(4GB)從 7 分鐘縮短到 30 秒,體驗完全不同。VPN07 還擁有 70+ 國家節點、十年穩定運營、30 天退款保障,月費僅 $1.5,是本地 AI 愛好者的必備工具。
Ollama 常見問題排除
問題:執行模型時出現「model not found」
解決方案:先執行 ollama list 確認已安裝的模型名稱,名稱需與 ollama run 後的名稱完全一致,包含版本標籤(如 deepseek-r1:7b)。
問題:模型執行很慢,每秒只輸出 1-2 個 token
原因通常是模型在 CPU 執行。確認 GPU 驅動已正確安裝,執行 ollama ps 查看 GPU layers 數字。如果是 0,表示沒有使用 GPU 加速。可以嘗試改用更小的量化版本(如從 Q8 改成 Q4_K_M)。
問題:Open WebUI 連不到 Ollama
確認 Ollama 服務正在執行(ollama serve),並確認防火牆沒有封鎖 11434 port。Docker 版本的 Open WebUI 需要加上 --add-host=host.docker.internal:host-gateway 才能連到主機的 Ollama 服務。
問題:下載模型途中中斷,重新執行 pull 會重頭開始嗎?
不會!Ollama 支援斷點續傳。如果下載中斷,重新執行 ollama pull 模型名,它會從中斷點繼續下載,不需要重新下載已完成的部分。
VPN07 — Ollama 模型下載加速神器
千兆頻寬加速 · 70+ 國家節點 · 十年穩定運營
每次 ollama pull 都在等待?VPN07 提供 1000Mbps 千兆頻寬,連接 Ollama 官方模型庫速度可達 80-120 MB/s,讓 DeepSeek-R1 7B(4GB)30 秒下載完成。70+ 國家節點任選,穩定運營十年,30 天不滿意全額退款,$1.5/月讓你的本地 AI 旅程從此飛速啟動。