Ollama安裝Qwen3.5教學：Windows/Mac/Linux本機AI 2026

教學說明：Ollama 是目前 X.com（Twitter）AI 社群中討論最熱烈的本機 AI 部署工具，2026 年初下載量突破 500 萬次。本教學覆蓋 Windows 11、macOS Sequoia、Ubuntu 24.04 三大平台，完整說明如何透過 Ollama 安裝並執行 Qwen3.5 系列模型，並整合 Open WebUI 提供 ChatGPT 風格的圖形介面。

什麼是 Ollama？為何成為 2026 最熱門的本機 AI 工具？

Ollama 是一個開源的本機大語言模型執行框架，讓使用者能在自己的電腦上透過幾個簡單命令下載並執行各種開源 LLM。它支援 macOS、Windows、Linux，自動處理模型下載、GPU 記憶體管理、API 服務等複雜工作，讓非技術用戶也能輕鬆體驗本機 AI。

2026 年初，Ollama 在 X.com 上持續霸佔 AI 相關熱搜。Qwen3.5 系列模型發布後，「ollama run qwen3.5」成為 AI 愛好者群中最常被分享的命令。Ollama 官方模型庫中，Qwen3.5 系列在發布後兩週內就累積了數十萬次拉取，成為非英語模型中下載量最高的系列之一。

⚡

三行命令搞定

安裝 Ollama、下載模型、開始對話各一行

🖥️

三大系統支援

Windows / macOS / Linux 原生支援

🔌

OpenAI 相容 API

任何 ChatGPT 應用都能直接接入

硬體需求與模型選擇指南

在開始安裝前，了解你的電腦硬體是否能流暢執行 Qwen3.5 相當重要。GPU 記憶體（VRAM）是關鍵指標：

模型版本	VRAM 需求	RAM 需求（CPU推理）	推薦場景
qwen3.5:9b	6GB+	10GB+	日常使用首選
qwen3.5:35b	24GB+	28GB+	進階用戶 / RTX 4090
qwen3.5:27b	18GB+	22GB+	RTX 3090/4080 用戶
qwen3.5:4b	4GB+	6GB+	輕量高速 / 筆電
qwen3.5:2b	2GB+	4GB+	最輕量 / 任何電腦

沒有獨立顯示卡也可以用！

Ollama 支援純 CPU 推理，即使你的電腦沒有獨立顯示卡，只要有足夠的 RAM，就能執行 Qwen3.5。CPU 推理速度較 GPU 慢 3-5 倍，但 Qwen3.5-2B 和 4B 在現代多核心 CPU 上依然有不錯的使用體驗。Apple Silicon Mac（M1/M2/M3/M4）由於統一記憶體架構，CPU+GPU 協作推理效率極高，是本機 AI 的絕佳選擇。

Windows 安裝 Ollama + Qwen3.5

Windows 用戶的安裝流程最為簡單，只需下載安裝程式並執行兩個命令：

Windows 安裝步驟

下載 Ollama Windows 安裝程式

前往 ollama.com 下載 Windows 版安裝程式（OllamaSetup.exe），執行後按照提示完成安裝。安裝後 Ollama 會在系統背景自動執行。

開啟 PowerShell 或命令提示字元，下載並執行 Qwen3.5

# 下載並執行 Qwen3.5-9B（推薦，需要 6GB VRAM）
ollama run qwen3.5:9b

# 輕量版（僅需 4GB RAM）
ollama run qwen3.5:4b

# 最輕量版（任何電腦）
ollama run qwen3.5:2b

首次執行會自動下載模型，9B 版本約 6.6GB，下載完成後自動進入對話模式。

用繁體中文開始對話

>>> 你好！請用繁體中文介紹一下你自己
>>> 幫我寫一篇台灣旅遊介紹文章
>>> /exit  （退出對話）

macOS 安裝 Ollama + Qwen3.5

macOS 用戶有兩種安裝方式，推薦使用 Homebrew 方式，後續更新更方便：

方式 A：下載 App 安裝

1. 前往 ollama.com 下載 macOS App
2. 拖拉到「應用程式」資料夾
3. 開啟後選單列出現 Ollama 圖示
4. 開啟終端機執行：ollama run qwen3.5

方式 B：Homebrew 安裝（推薦）

# 安裝 Ollama
brew install ollama

# 啟動 Ollama 服務
brew services start ollama

# 下載並執行 Qwen3.5
ollama run qwen3.5:9b

Apple Silicon Mac 特別提示

搭載 M1 到 M4 晶片的 Mac 擁有「統一記憶體架構（Unified Memory）」，CPU 和 GPU 共用同一塊 RAM，這意味著即使是 M2 MacBook Air（16GB RAM），也能輕鬆流暢跑 Qwen3.5-9B，推理速度甚至優於同價位的 Windows 筆電搭載獨立顯示卡的表現。M3 Max / M4 Max 的 Mac Studio 更能輕鬆跑 Qwen3.5-35B。

Linux 安裝 Ollama + Qwen3.5

Linux 用戶只需一行命令即可完成 Ollama 的安裝：

# Linux 一鍵安裝 Ollama（支援 Ubuntu/Debian/CentOS/RHEL）


                        curl -fsSL https://ollama.com/install.sh | sh

                        

                        # 確認安裝成功

                        ollama --version

                        

                        # 下載並執行 Qwen3.5

                        ollama run qwen3.5:9b

                        

                        # 背景執行 Ollama 服務（推薦）

                        systemctl enable --now ollama

NVIDIA GPU 加速設定（Linux）

如果你的 Linux 系統有 NVIDIA 顯示卡，安裝 CUDA 驅動後 Ollama 會自動偵測並使用 GPU 加速：

# 確認 CUDA 可用
nvidia-smi

# Ollama 會自動使用 GPU，確認方式：
ollama run qwen3.5:9b
>>> /info  # 查看是否顯示 GPU 使用

安裝 Open WebUI：獲得 ChatGPT 風格介面

Ollama 預設只有命令列介面，但搭配 Open WebUI 可以獲得類似 ChatGPT 的美觀圖形介面，支援多對話管理、Markdown 渲染、程式碼高亮等功能，讓本機 AI 使用體驗大幅提升。

Docker 一鍵安裝 Open WebUI

最簡單的安裝方式是透過 Docker（確保已安裝 Docker Desktop）：

docker run -d \
  --name open-webui \
  -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --restart always \
  ghcr.io/open-webui/open-webui:main

執行後在瀏覽器開啟 http://localhost:3000，首次進入需要建立管理員帳號。之後在介面中選擇 Qwen3.5 模型即可開始對話。

Ollama API 使用方式：接入任何應用程式

Ollama 提供與 OpenAI API 完全相容的介面，這意味著任何原本接入 ChatGPT 的工具都可以直接切換到本機 Qwen3.5，完全免費，資料不離開電腦。

curl 直接呼叫 API

curl http://localhost:11434/api/chat \
  -d '{
    "model": "qwen3.5:9b",
    "messages": [
      {"role":"user",
       "content":"請介紹台北"}
    ]
  }'

Python 呼叫

from openai import OpenAI
client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"
)
res = client.chat.completions.create(
    model="qwen3.5:9b",
    messages=[{"role":"user",
        "content":"你好"}]
)

Ollama 常用命令速查

# Ollama 常用命令


                        ollama list                    # 查看已下載的模型

                        ollama pull qwen3.5:35b        # 只下載不執行

                        ollama rm qwen3.5:2b           # 刪除模型

                        ollama ps                      # 查看正在執行的模型

                        ollama serve                   # 手動啟動 Ollama 服務

                        ollama run qwen3.5 --verbose   # 顯示推理速度統計

常見問題解決

❓ ollama: command not found？

Windows 需要重新開啟 PowerShell 或命令提示字元。macOS/Linux 確認 Ollama 已加入 PATH：export PATH=$PATH:/usr/local/bin。

❓ 模型下載速度太慢？

Ollama 從 ollama.com 官方伺服器下載模型，台灣直連速度不穩定。建議搭配 VPN07 開啟連線後再下載，VPN07 提供 1000Mbps 千兆頻寬，可大幅縮短下載時間。

❓ GPU 沒有被使用，CPU 推理太慢？

確認已安裝最新版 NVIDIA 驅動（Windows/Linux）或 ROCm（AMD GPU）。執行 ollama run qwen3.5 --verbose 確認 GPU 是否被偵測到。Apple Silicon Mac 不需要額外設定，Ollama 會自動使用 Metal 加速。

Ollama 模型管理：Modelfile 客製化

Ollama 的 Modelfile 功能讓你可以基於現有模型建立客製化版本，預設好系統提示、溫度等參數，非常適合建立針對特定用途的繁體中文助理：

# 建立繁體中文專用 Qwen3.5（儲存為 Modelfile）


                        FROM qwen3.5:9b


                        PARAMETER temperature 0.7

                        PARAMETER top_p 0.9

                        PARAMETER num_ctx 8192


                        SYSTEM """你是一個專業的繁體中文 AI 助理，服務台灣和香港用戶。

                        請始終使用繁體中文（Traditional Chinese）回覆，

                        使用台灣慣用語和表達方式，回答要精確、實用且親切。"""

# 建立並使用客製化模型


                        ollama create qwen35-tw -f Modelfile

                        ollama run qwen35-tw

Ollama 效能最佳化技巧

在不同硬體環境下最佳化 Ollama 效能，可以顯著改善推理速度和使用體驗：

GPU 最佳化

確保 GPU 驅動是最新版本
關閉其他佔用 GPU 記憶體的程式
NVIDIA 用戶：啟用 Persistent Mode（nvidia-smi -pm 1）
設定環境變數：OLLAMA_NUM_GPU=1

記憶體最佳化

選擇適合 VRAM 的量化版本（Q4 vs Q8）
CPU 推理時確保至少 2x 模型大小的可用 RAM
設定 OLLAMA_KEEP_ALIVE=10m 控制模型卸載時間
多模型並行時注意總記憶體使用量

Qwen3.5 各版本適用場景速查

🏠

個人日常使用 → Qwen3.5-9B

最佳的個人使用版本，需要約 6GB VRAM（GPU）或 10GB RAM（CPU）。能流暢處理繁體中文寫作、翻譯、問答、代碼輔助等大多數日常任務，速度和品質取得最佳平衡。

💼

企業和開發者使用 → Qwen3.5-27B 或 35B

需要更高品質輸出的企業應用，27B 和 35B 版本的推理能力明顯優於 9B，特別適合代碼審查、技術文件生成、複雜業務邏輯分析等高要求場景。

⚡

高頻率即時應用 → Qwen3.5-4B 或 2B

需要毫秒級回應的聊天機器人、即時補全功能，使用 4B 或 2B 的輕量版本，在速度和品質之間取得更好的平衡。特別適合整合到 IDE 插件、客服系統等需要快速回應的場景。

Ollama + Qwen3.5 常見問題 FAQ

❓ Ollama 和 LM Studio 哪個更好？

兩者各有優勢，不衝突。Ollama 適合開發者和進階用戶，提供強大的 CLI 工具和 API；LM Studio 適合一般用戶，提供美觀的圖形介面。兩者可以同時安裝，根據使用情境選擇。

❓ Ollama 模型儲存在哪裡？可以更改位置嗎？

預設儲存位置：macOS/Linux 為 ~/.ollama/models，Windows 為 C:\Users\用戶名\.ollama\models。可以透過設定環境變數 OLLAMA_MODELS=/你的路徑 更改儲存位置，適合 C 槽空間不足的用戶。

❓ 可以同時在多台電腦上使用同一個模型嗎？

可以。將模型檔案（.gguf 格式）複製到另一台電腦後，透過 ollama create 模型名 -f Modelfile 匯入即可，不需要重新下載。Ollama 模型格式也可以和 LM Studio 互通使用。

❓ Ollama 如何更新到最新版本？

macOS：brew upgrade ollama。Windows：重新下載安裝程式執行即可。Linux：重新執行安裝腳本 curl -fsSL https://ollama.com/install.sh | sh。更新後已下載的模型不受影響，無需重新下載。

❓ 如何讓 Ollama 在開機時自動啟動？

Windows：Ollama 安裝後預設在開機時自動啟動（系統托盤有圖示）。macOS：brew services start ollama 可設定開機自動啟動。Linux：systemctl enable ollama。這樣每次開機後就能直接使用 API，無需手動啟動。

搭配 VPN07：加速 Ollama 模型下載

Ollama 的所有模型都需要從其官方模型庫下載，對於台灣和香港的用戶來說，沒有 VPN 輔助的情況下下載速度往往相當慢。特別是 Qwen3.5-35B 這樣的大模型，檔案大小超過 22GB，如果網速只有幾 Mbps，可能需要數小時才能完成下載。

VPN07 憑藉其 1000Mbps 千兆頻寬和遍布 70 多個國家的節點，能讓你的 Ollama 模型下載達到最快速度。作為運營超過十年的國際網路服務，VPN07 以穩定性和速度著稱，$1.5/月的超低月費更讓它成為 AI 工具重度用戶的首選。

在實際使用中，開啟 VPN07 連接日本節點後，從 Ollama 官方模型庫下載 Qwen3.5-35B（約 22GB）的時間從數小時縮短到 30-40 分鐘。對於需要頻繁嘗試不同模型的研究者和開發者，VPN07 的時間節省效益相當顯著。加上對 ChatGPT API、Hugging Face、GitHub 等開發者常用平台的加速支援，VPN07 是每個認真對待 AI 開發的台灣用戶不可或缺的工具。

VPN07 作為運營超過十年的國際品牌，在台灣 AI 社群中口碑極佳。每月僅 $1.5 的超低月費不到一杯咖啡的價格，30 天退款保障讓你完全零風險嘗試。對於每天都在使用 AI 工具的開發者和 AI 愛好者，VPN07 的投資報酬率無疑是業界最高的。

此外，如果你使用 Windows 或 macOS 上的 Clash、Shadowrocket 等代理工具搭配 VPN07，可以設定規則讓 ollama.com、huggingface.co、github.com 等 AI 相關域名走代理，其他流量直連，達到最優的速度和隱私平衡。

無論你是剛踏入本機 AI 領域的新手，還是已有開發經驗的進階用戶，Ollama + Qwen3.5 + VPN07 的三合一組合都能提供最佳的使用體驗。從今天開始，用三行命令在自己的電腦上跑起 Qwen3.5，體驗完全屬於你的私人 AI 助理。

現在就開始：1）開啟 VPN07 連日本節點 → 2）下載並安裝 Ollama → 3）執行 ollama run qwen3.5:9b → 4）輸入「你好」開始你的本機 AI 之旅。整個過程不超過 15 分鐘，完全免費，資料永遠在你的電腦上。

如果你想進一步了解 Qwen3.5 在各平台的安裝方式，可以閱讀本系列的其他教學文章。VPN07 部落格持續更新最新的 AI 工具使用指南，訂閱我們的 Telegram 頻道即時獲取最新資訊。

對於正在構建 Ollama + Qwen3.5 本機 AI 環境的用戶，VPN07 是整個工作流程中不可缺少的一環。從初始設置時加速 Ollama 安裝程式下載、快速獲取 Qwen3.5 模型，到日後整合 ChatGPT API 進行雲端 AI 補充、存取 GitHub 的 llama.cpp 最新版本，每個環節都依賴穩定快速的國際網路。VPN07 的 70+ 國家節點覆蓋和千兆頻寬，讓這一切都輕鬆實現。

Ollama + Qwen3.5 的進階應用

掌握基本的 Ollama 使用方式後，以下是幾個可以大幅提升工作效率的進階應用：

建立 AI 代碼審查助手

透過 Ollama API 和 Git Hooks，可以在每次 git commit 前自動呼叫 Qwen3.5-27B 審查代碼品質。Qwen3.5 對 Python、TypeScript、Go 等語言的理解能力強，能有效發現潛在 Bug 和改進建議，完全在本機執行，不需要擔心代碼外洩。

RAG 本機知識庫問答

結合 Ollama + LlamaIndex 或 LangChain，可以建立基於自己文件庫的 RAG（Retrieval-Augmented Generation）系統。將公司文件、個人筆記、技術手冊建立成向量資料庫後，Qwen3.5 就能針對這些文件回答具體問題，是企業內部知識管理的絕佳方案。

批量繁體中文翻譯工作流

利用 Ollama API 和簡單的 Python 腳本，可以建立批量文件翻譯流水線。將需要翻譯的英文文件清單丟給腳本，自動呼叫本機 Qwen3.5-27B 進行翻譯，翻譯結果品質優良且完全免費。特別適合需要大量翻譯工作的出版、法律、醫療等行業。

多模型協作小技巧

Ollama 支援同時下載多個模型，你可以根據任務類型靈活切換：用 Qwen3.5-27B 處理需要深度理解的複雜任務，用 Qwen3.5-4B 處理快速問答，用程式碼專用模型（如 qwen2.5-coder）處理代碼需求。透過 Open WebUI 的對話管理功能，可以在不同模型之間無縫切換，打造個人化的 AI 工作站。

企業使用 Ollama 的資安考量

對於企業用戶，Ollama 本機部署的最大優勢是完整的資料主權。員工的所有 AI 對話、上傳的文件和代碼都在企業自己的伺服器上處理，不會傳送到任何第三方雲端。這對需要遵守 GDPR、個資法、金融監管規範的企業尤為重要。

企業可以在內部伺服器上部署 Ollama + Qwen3.5-27B，透過內網 API 讓所有員工使用，搭配 Open WebUI 提供統一的使用介面，並設定存取控制和使用記錄。整個方案的硬體成本（一台搭載 NVIDIA RTX 4090 的工作站，約 NT$15-20 萬）在半年內即可通過節省的 AI 訂閱費用回收。

Ollama + Qwen3.5 總結：2026 年最強本機 AI 組合

Ollama 和 Qwen3.5 的組合代表了 2026 年本機 AI 部署的最佳實踐。幾個核心優勢讓這個組合脫穎而出：

極低的技術門檻

三行命令就能跑起一個頂尖的開源 AI 模型，不需要任何機器學習背景，任何會打命令列的人都能完成。

Qwen3.5 的繁體中文優勢

201 種語言訓練，繁體中文理解和生成能力出色，台灣用語和文化背景的處理明顯優於西方模型。

完整的開發者生態

Ollama 的 OpenAI 相容 API 讓它能無縫替代現有的 ChatGPT 整合，大量開發者工具（LangChain、LlamaIndex、Open WebUI）都支援。

長期零成本

模型下載一次後永久免費使用，無論使用多少次都不需要額外付費。適合高頻率使用 AI 的個人和企業用戶。

VPN07 — Ollama 最佳加速搭配

千兆頻寬加速下載 · 70+國家節點 · 十年穩定服務

Ollama 模型下載、Hugging Face 瀏覽、AI API 存取都依賴良好的國際網路。VPN07 提供 1000Mbps 千兆頻寬和 70+ 國家節點，讓你的 Qwen3.5 大模型下載飛速完成。運營十年的可信品牌，30 天退款保障，$1.5/月輕鬆入手。

$1.5/月

超低月費

1000Mbps

千兆頻寬

70+

國家節點

30天

退款保障

免費試用 VPN07 查看價格方案

Ollama安裝Qwen3.5完整教學：Windows/Mac/Linux一鍵跑AI 2026