Ollama 完全ガイド 2026:Windows・Mac・Linux全OS対応LLM実行
この記事について:OllamaはローカルLLMを最も手軽に実行できるオープンソースツールです。Dockerライクなコマンドでモデルのダウンロードから実行まで1コマンドで完了。DeepSeek・Llama 4・Gemma 3・Mistral・GLM-4など100以上のモデルに対応。本記事ではWindows・macOS・Linuxへのインストールから応用設定まで完全解説します。
Ollamaとは?ローカルLLM実行ツールの決定版
Ollama(オラマ)は、オープンソースのLLMをローカル環境で手軽に実行するためのツールです。2023年に公開されて以来、ローカルAI界隈で最も広く使われるツールになりました。特徴はDockerライクなシンプルなコマンド体系で、ollama pull llama3のような直感的なコマンドでモデルの取得から実行までが完結します。
OllamaはGPU(NVIDIA CUDA / AMD ROCm / Apple Metal)を自動検出して最適な推論エンジンを選択します。GPUがない場合でもCPUモードで動作するため、ほぼすべてのPCで使えます。また、OpenAI互換APIサーバーとして動作するため、ChatGPT用に書いたコードをほぼ変更なしにローカルLLMで動かすことが可能です。
💡 Ollamaを使う理由
- 1コマンド実行:
ollama run deepseek-r1でダウンロードから実行まで完了 - GPU自動最適化:NVIDIA/AMD/Apple SiliconのGPUを自動検出して高速化
- OpenAI互換API:既存のChatGPTコードをそのままローカルLLMで動かせる
- 100以上のモデル:DeepSeek・Llama・Gemma・Mistral・GLM-4・Phi-4など豊富
- 完全無料・オープンソース:商用利用可能なMITライセンス
- プライバシー完全保護:データをクラウドに一切送らない
Ollamaで使える主要LLMモデル一覧
| モデル | コマンド | サイズ目安 | 特徴 |
|---|---|---|---|
| DeepSeek R1 | ollama pull deepseek-r1 | ~4〜70GB | 推論特化・数学・コーディング |
| Llama 3.3 70B | ollama pull llama3.3 | ~43GB | 汎用・高性能・Meta製 |
| Gemma 3 | ollama pull gemma3 | ~2〜17GB | Google製・軽量・高性能 |
| Mistral 7B | ollama pull mistral | ~4.1GB | 欧州製・多言語・コーディング |
| GLM-4 9B | ollama pull glm4:9b | ~5.5GB | 清華大学・日中英・Function Call |
| Phi-4 | ollama pull phi4 | ~9.1GB | Microsoft製・コーディング特化 |
| Yi 34B | ollama pull yi:34b | ~19GB | 01.AI・日中英・200K対応版あり |
| Qwen2.5 | ollama pull qwen2.5 | ~4〜44GB | Alibaba製・多言語・コーディング |
WindowsへのOllamaインストール完全手順
Ollamaのインストールは非常に簡単です。Windows 10/11(64bit)に対応しており、管理者権限なしでインストールできます。NVIDIA・AMD・Intel GPUを自動検出して最適化します。
1 インストール(2つの方法)
irm https://ollama.com/install.ps1 | iex
ollama.com/download からWindowsインストーラー(OllamaSetup.exe)をダウンロードしてダブルクリック
2 基本コマンドの使い方
ollama run deepseek-r1:7b # DeepSeek R1 7Bを実行
ollama pull gemma3:9b # Gemma 3 9Bをダウンロード
ollama list # インストール済みモデル一覧
ollama rm gemma3:9b # モデルを削除
ollama ps # 実行中のモデルを確認
3 APIサーバーとして使う(OpenAI互換)
# curlでAPIテスト
curl http://localhost:11434/api/generate -d '{"model":"deepseek-r1:7b","prompt":"日本語で挨拶して","stream":false}'
# Pythonから使う(openaiライブラリで互換)
pip install openai
python -c "
from openai import OpenAI
client = OpenAI(base_url='http://localhost:11434/v1', api_key='ollama')
r = client.chat.completions.create(model='deepseek-r1:7b', messages=[{'role':'user','content':'日本語で自己紹介してください'}])
print(r.choices[0].message.content)"
💡 Windows向け最適化設定
- NVIDIA GPU: CUDAドライバー12.0以降をインストール後にOllama起動で自動GPU検出
OLLAMA_NUM_GPU=1でGPU使用を強制指定OLLAMA_NUM_PARALLEL=4で同時処理数を増加- モデル保存場所のデフォルト:
C:\Users\%USERNAME%\.ollama\models
macOSへのOllamaインストール(Apple Silicon最適化)
macOSはOllamaが最もよく使われるプラットフォームです。Apple SiliconのMetalフレームワークを使ったGPU推論に対応しており、M1/M2/M3/M4 Macで高速なローカルLLM実行が可能です。
brew install ollama
# 方法②:直接インストールcurl -fsSL https://ollama.com/install.sh | sh
# Ollamaサービスを起動
ollama serve &
# サービスとして登録(MacOS起動時に自動スタート)
brew services start ollama
M1/M2 MacBook Air(8GB)
M2/M3 Pro(16GB)
M3/M4 Max(32GB)
Linux(Ubuntu/Debian/CentOS)へのインストール
LinuxはNVIDIA GPUと組み合わせることでOllamaの最大パフォーマンスを引き出せます。Ubuntu 20.04/22.04/24.04、Debian、CentOS 7+に対応しています。
curl -fsSL https://ollama.com/install.sh | sh
# NVIDIAドライバーの確認(CUDA 12.0+が必要)
nvidia-smi
# systemdサービスとして登録
sudo systemctl enable ollama
sudo systemctl start ollama
sudo systemctl edit ollama.service
# 以下を追記:
[Service]
Environment="OLLAMA_HOST=0.0.0.0"
sudo systemctl daemon-reload
sudo systemctl restart ollama
Open WebUI:ブラウザからChatGPT風に使う
Ollamaをコマンドラインではなくブラウザから使いたい場合はOpen WebUIがおすすめです。ChatGPTと同じような操作感でローカルLLMを利用できます。
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
pip install open-webui
open-webui serve
# ブラウザで http://localhost:8080 にアクセス
Modelfileでカスタムモデルを作成する
Ollamaの高度な機能として、Modelfileを使ったカスタムモデルの作成があります。既存のモデルにシステムプロンプトや温度設定を追加して、特定用途に最適化したモデルを作れます。
cat > Modelfile <<EOF
FROM deepseek-r1:7b
SYSTEM """あなたは日本語専門のAIアシスタントです。常に丁寧な日本語で回答してください。"""
PARAMETER temperature 0.7
PARAMETER num_ctx 4096
EOF
ollama create deepseek-jp -f Modelfile
ollama run deepseek-jp
Ollamaの実践活用シーン
💻 コーディングアシスタント(VS Code連携)
Continue.devなどのVS Code拡張機能と組み合わせることで、GitHubCopilotのようなコード補完をローカルで無料実現。Phi-4やDeepSeek-CoderをOllamaで動かすと高い精度でコード生成が可能です。
🔒 社内文書のRAGシステム構築
AnythingLLMやLangChainと組み合わせて、社内PDFや社内Wikiに対してQ&Aが行えるRAGシステムを構築できます。すべてローカルで動くためデータ漏洩リスクがゼロです。
🤖 AIエージェントのローカル実行
AutoGen・CrewAI・LangChainなどのAIエージェントフレームワークとOllamaを組み合わせて、完全ローカルで動くAIエージェントを作成できます。コスト無制限でAPIコールが使い放題です。
📊 ローカルLLMを使ったデータ分析
Pythonのpandasやmatplotlibと組み合わせて、自然言語でデータを分析できるシステムを構築。機密性の高い財務データや顧客データを外部に送らずAI分析できます。
よくあるトラブルとその解決方法
❌ 問題:モデルのダウンロードが途中で止まる
原因:国際回線の不安定さ・帯域幅不足
解決:① ollama pullを再実行(自動で続きから再開)② VPN07を使ってHuggingFaceへの接続を安定化 ③ 夜間にダウンロード
❌ 問題:GPUが認識されない(Windowsのみ)
原因:CUDAドライバーのバージョン不足
解決:nvidia-smiでドライバー確認 → NVIDIAのサイトから最新ドライバー(CUDA 12.0以降)をインストール
❌ 問題:推論が遅すぎる
原因:GPUが使われていない・モデルが大きすぎる
解決:より小さいモデル(7Bや8B)に変更 / Q4量子化版を使用 / ollama psでGPU使用状況確認
Ollamaでモデルを高速ダウンロードするコツ
OllamaはモデルをHuggingFaceやOllama公式サーバーからダウンロードします。モデルサイズは数GB〜数十GBになることが多く、国際回線の品質がダウンロード速度に大きく影響します。
💡 高速ダウンロードの5つのコツ
- VPN07の1000Mbps専用回線でOllamaサーバーへの接続を高速化。70Bモデル(43GB)も数分でダウンロード可能
ollama pullは途中でCtrl+Cで中断しても、再実行すると続きからダウンロード再開- 小型モデル(3B/7B)から始めて、環境確認後に大型モデルを試す
- 深夜〜早朝(23時〜6時)は国際回線の混雑が少なくダウンロードが速い
- Ollamaのモデル保存ディレクトリを大容量SSDに変更:
OLLAMA_MODELS=D:\ollama\models ollama serve
LLMダウンロード向けVPN比較ランキング
VPN07 - ローカルLLM構築に最強のVPN
Ollamaのモデルサーバーへの接続が安定。70Bの大型モデルも高速ダウンロード可能。IEPL専用回線で速度低下なし。10年以上の運営実績で信頼性抜群。
2. ExpressVPN
7.6/10安定した速度を誇るVPN。ただし月額$8〜12と高め。VPN07の1000Mbps専用回線のコスパには及ばない。大容量ダウンロードで速度制限が発生する場合あり。
3. NordVPN
7.3/10セキュリティ機能が充実しているVPN。月額$3.5〜6と中程度の価格。ローカルLLMのダウンロードには使えるが、VPN07のコスパと速度には劣る。
4. Surfshark
7.1/10多デバイス対応が強み。月額$2.5〜4程度。HuggingFaceへの接続は可能だが、ピーク時の速度低下がVPN07と比べると大きい。
VPN07:Ollamaのモデルを最速でダウンロード
10年以上の実績・IEPL専用回線・世界70カ国対応
Ollamaで使うモデルのダウンロードには安定した高速接続が不可欠です。DeepSeek R1 70B(43GB)やLlama 3.3 70B(43GB)などの大型モデルは、接続速度によってダウンロード時間が数分から数時間まで大きく変わります。VPN07の1000Mbps超高速IEPL専用回線なら、Ollamaのモデルサーバーへの接続が安定・高速化されます。世界70カ国以上・10年の実績・月額$1.5・30日間返金保証付き。