DeepSeek-R1 量化版完整指南 2026:4GB 顯存也能本機跑 671B 推理王
教學說明:很多人下載 DeepSeek-R1 後發現顯存不夠,或者不知道 Q4_K_M、Q8_0 這些後綴代表什麼。本教學完整解析量化技術原理、各量化等級的品質差異、不同顯存容量下的最優版本選擇,以及在 Windows、macOS、Linux 上實際部署量化版 DeepSeek-R1 的完整步驟。讀完你將能用手邊設備跑最適合的版本。
什麼是量化?為什麼它能讓大模型在低顯存設備上執行?
量化(Quantization)是一種模型壓縮技術,原理是將模型中的浮點數權重(通常是 32 位元 FP32 或 16 位元 FP16)轉換為更低精度的整數表示(如 8 位元 INT8 或 4 位元 INT4),藉此大幅降低模型的記憶體佔用量和計算需求,讓更多設備能夠執行大型 AI 模型。
DeepSeek-R1 的旗艦版本有 671B 個參數,以 FP16 格式儲存需要超過 1.3TB 的顯存,這超出了幾乎所有消費級設備的能力範圍。但透過 4 位元量化(Q4),同一個模型的記憶體需求可以降低至約 350GB,再搭配 MoE(混合專家)架構的稀疏性,實際啟動所需的記憶體更是大幅縮小,讓消費級多卡系統也能執行。對於普通用戶,7B、14B 的量化版本更是只需要 4-8GB 記憶體即可執行。
體積縮小 75%
Q4 量化讓模型體積縮小至原始 FP32 的 1/8
速度提升明顯
整數運算比浮點運算更快,推理速度顯著提升
品質損失極小
Q4_K_M 以上品質,肉眼幾乎無法與原始版區別
DeepSeek-R1 量化等級完整解析:Q4/Q5/Q6/Q8 差在哪?
在 Ollama 和 GGUF 格式中,量化等級以字母和數字組合表示。以下是完整對照表,幫助你做出最適合的選擇:
| 量化等級 | 每參數位元數 | 7B 版本大小 | 品質評分 | 推薦場景 |
|---|---|---|---|---|
| Q2_K | 2.6 bit | ~2.7 GB | ⭐⭐ | 極低配設備、僅供實驗 |
| Q3_K_M | 3.9 bit | ~3.3 GB | ⭐⭐⭐ | 4GB 顯存入門選擇 |
| Q4_K_M ⭐推薦 | 4.8 bit | ~4.1 GB | ⭐⭐⭐⭐⭐ | 最佳平衡點,絕大多數用戶首選 |
| Q5_K_M | 5.7 bit | ~4.8 GB | ⭐⭐⭐⭐⭐ | 6GB 顯存,品質接近 FP16 |
| Q6_K | 6.6 bit | ~5.5 GB | ⭐⭐⭐⭐⭐ | 8GB 顯存,幾乎無損失 |
| Q8_0 | 8.5 bit | ~7.7 GB | ⭐⭐⭐⭐⭐ | 8GB+ 顯存,最接近原始精度 |
專業建議:大多數用戶選 Q4_K_M 就夠了
多項第三方測試表明,Q4_K_M 的輸出品質與 FP16 原始版本相差不到 3%,但記憶體需求降低了 75%。除非你有特別嚴苛的精度要求(如科學計算、數值分析),否則 Q4_K_M 是絕大多數日常使用場景的最佳選擇。如果顯存充裕(8GB+),可以升級到 Q5_K_M 或 Q6_K 獲得更好品質。
依你的顯存選擇最佳版本:完整對照表
不同顯存容量對應不同的最優量化組合,以下是 2026 年最新建議:
4GB 4GB 顯存(GTX 1650 / RX 580 等)
6GB 6GB 顯存(RTX 3060 6GB / RX 6650 XT 等)
8GB 8GB 顯存(RTX 4060 / RX 7700 XT 等)
16GB 16GB 顯存(RTX 4080 / M2 Pro 16GB 統一記憶體)
24GB 24GB 顯存(RTX 4090 / RTX 3090 / M3 Max 等)
Ollama 下載量化版 DeepSeek-R1 完整教學
Ollama 是目前最便捷的本地 LLM 管理工具,它自動處理量化版本的下載與執行,無需手動轉換格式。以下是在各平台的完整安裝流程:
Windows 部署量化版
步驟 1:安裝 Ollama
前往 ollama.com 下載 Windows 安裝程式,執行後自動完成安裝。若下載緩慢,建議開啟 VPN07 加速,1000Mbps 千兆頻寬讓下載速度提升 10 倍以上。
步驟 2:下載指定量化版本
# 下載 7B Q4_K_M 版本(最推薦,4GB 顯存可用)
ollama pull deepseek-r1:7b
# 指定量化等級(更精確控制)
ollama pull hf.co/bartowski/DeepSeek-R1-Distill-Qwen-7B-GGUF:Q4_K_M
# 下載 14B Q4_K_M(適合 8-10GB 顯存)
ollama pull deepseek-r1:14b
步驟 3:執行並開始推理
ollama run deepseek-r1:7b
# 執行後輸入問題,R1 會顯示思考過程再給出答案
# 輸入 /bye 退出對話
macOS 部署量化版(Apple Silicon 最優方案)
Apple Silicon 的統一記憶體架構(UMA)讓量化版 DeepSeek-R1 執行效率極高,M2 Pro(16GB)執行 14B Q4_K_M 的速度甚至比 RTX 4060(8GB VRAM)更快。
# 使用 Homebrew 安裝(推薦)
brew install ollama
brew services start ollama
# M1(8GB)推薦
ollama pull deepseek-r1:7b
# M2/M3(16GB)推薦
ollama pull deepseek-r1:14b
# M2 Max / M3 Max(32GB+)推薦
ollama pull deepseek-r1:32b
Linux + NVIDIA GPU 最高效能部署
Linux + NVIDIA GPU 是執行量化 LLM 的黃金組合,CUDA 加速讓推理速度比 CPU 快 10-50 倍。
# 安裝 Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 確認 NVIDIA GPU 偵測
ollama run deepseek-r1:7b
# 看到 "GPU layers: XX" 表示已啟用 GPU 加速
# RTX 4090(24GB)最佳方案
ollama pull deepseek-r1:32b
ollama run deepseek-r1:32b
# 設定 GPU 層數(顯存有限時手動控制卸載比例)
OLLAMA_NUM_GPU=40 ollama run deepseek-r1:70b
量化版效能實測:各量化等級的實際速度差異
以下是在 RTX 4070(12GB VRAM)上執行 DeepSeek-R1 7B 各量化版本的實測數據:
為什麼下載模型這麼慢?VPN07 是解決方案
DeepSeek-R1 的模型文件寄存在 Hugging Face 和 Ollama 模型庫,這些服務器在海外,從台灣直連速度通常只有 3-10 MB/s,下載 4GB 的 Q4_K_M 版本需要 7-20 分鐘,而 14B 版本(8GB)則需要 14-40 分鐘。使用 VPN07 連接至最近的高速節點後,下載速度可達 80-120 MB/s(即接近 1000Mbps 千兆頻寬),同樣的 14GB 模型只需 2-3 分鐘下載完成。VPN07 提供 70+ 國家節點、穩定運營十年、30 天退款保障,月費僅 $1.5,是本地 AI 玩家的必備工具。
進階技巧:自訂量化版本與效能調優
如果你想要更精細地控制量化版本,或者 Ollama 預設版本不符合需求,可以直接從 Hugging Face 下載 GGUF 格式的量化文件:
手動下載 GGUF 量化文件
# 安裝 huggingface-cli
pip install huggingface-hub
# 下載 7B Q4_K_M 量化版
huggingface-cli download bartowski/DeepSeek-R1-Distill-Qwen-7B-GGUF \
--include "DeepSeek-R1-Distill-Qwen-7B-Q4_K_M.gguf" \
--local-dir ./deepseek-r1-7b
# 用 Ollama 載入自訂 GGUF 文件
ollama create my-deepseek-r1 -f ./Modelfile
Modelfile 範本:FROM ./deepseek-r1-7b/DeepSeek-R1-Distill-Qwen-7B-Q4_K_M.gguf
Ollama 效能調優參數
# 設定 GPU 層數(越多速度越快,但顯存需求越高)
OLLAMA_NUM_GPU=35 ollama run deepseek-r1:7b
# 設定並行請求數(伺服器使用場景)
OLLAMA_NUM_PARALLEL=4 ollama serve
# 調整 Context 長度(越長越消耗記憶體)
ollama run deepseek-r1:7b --ctx-size 4096
# 查看模型運行狀態
ollama ps
常見問題 Q&A
Q:量化版的推理能力比原始版差很多嗎?
A:Q4_K_M 以上的量化版本,在日常對話、程式設計、文章寫作等任務中,輸出品質與 FP16 原始版幾乎無法區分。只有在涉及高精度數學計算的特殊場景下,才可能出現些微差異。對於 99% 的使用者來說,Q4_K_M 已是完美選擇。
Q:沒有顯示卡只有 CPU 能跑嗎?
A:可以,但速度會非常慢。CPU 執行 7B Q4_K_M 大約只有 3-5 tokens/秒(GPU 可達 15-50 tokens/秒)。建議至少使用 AMD Ryzen 9 或 Intel Core i9 等級的 CPU,並確保 32GB 以上系統記憶體。如果是 Apple M 系列晶片,CPU 和 GPU 共享統一記憶體,效率比 PC CPU 好得多。
Q:怎麼確認 Ollama 是否有使用 GPU 加速?
A:執行模型後,另開一個終端輸入 ollama ps,可以看到「GPU layers」的數字。如果是 0,代表完全用 CPU;數字越高,代表越多計算在 GPU 執行。Windows 用戶可以同時開啟工作管理員,查看 GPU 使用率是否有上升。
VPN07 — 本地 AI 下載加速首選
千兆頻寬加速下載 · 70+ 國家節點 · 十年穩定服務
DeepSeek-R1 量化模型少則 4GB,多則 40GB,每次下載都考驗你的網速。VPN07 提供 1000Mbps 千兆頻寬,連接 Ollama 官方模型庫、Hugging Face 速度穩定飛快,讓 14GB 模型 2 分鐘內下載完成。70+ 國家節點、穩定運營十年、30 天退款保障,$1.5/月即可體驗。下載一次模型就回本了!