GLM-5 インストール完全ガイド!Windows・Mac・Android・iPhone全対応【2026年最新版】
この記事について:中国の清華大学発スタートアップ・智谱AI(ZhipuAI/Z.ai)が開発したGLM-5は、2026年に公開された最先端のオープンソースMoEモデルです。総パラメータ744B・実行時40Bという高効率アーキテクチャを採用し、AIME 2026で92.7%・SWE-bench Verifiedで77.8%という驚異的なスコアを記録しました。MITライセンスで公開されており、商用・個人利用ともに完全無料です。本記事では、すべてのプラットフォームにGLM-5をローカルインストールする具体的な手順を解説します。
GLM-5とは?GLM-4との違いと2026年の注目ポイント
GLM-5(General Language Model 5)は、前世代のGLM-4から大幅に進化したZhipuAIの最新フラッグシップモデルです。最大の違いはアーキテクチャで、GLM-4が密なTransformerだったのに対し、GLM-5はSparse MoE(まばら専門家混合)構造を採用。総パラメータ744Bのうち、1トークンあたりの推論時に使用するのは40Bのみという驚異的な計算効率を実現しています。
GLM-5が特に優れているのはコーディング・ソフトウェアエンジニアリング分野です。DeepSeek Sparse Attention(DSA)技術により198Kトークンの超長文コンテキストに対応し、大規模コードベースの解析も一度に処理できます。また、英語・中国語・日本語を含む多言語に対応しており、日本語での利用も非常に自然な文章が生成されます。
GLM-5 - ソフトウェアエンジニアリング特化の最強オープンソースAI
プラットフォーム別 推奨スペックとモデル選択
デバイス別 GLM-5実行環境ガイド
| デバイス | VRAM/RAM | 推奨バリアント | 応答速度 |
|---|---|---|---|
| RTX 4090 × 2以上 | 48GB+ | glm-5:cloud (Q4) | 20+tok/s |
| RTX 4090 単体 (24GB) | 24GB | glm-5:cloud (Q2) | 12+tok/s |
| Mac M2/M3 Ultra (192GB) | 192GB | glm-5:cloud (Q4) | 18+tok/s |
| 高スペックLinux (H100×4) | 320GB+ | BF16 フルモデル | 40+tok/s |
| 一般PC (RTX 3080) | 10-16GB | GLM API経由推奨 | クラウド速度 |
| Android / iPhone | 8GB+ | API接続推奨 | クラウド速度 |
WindowsへのGLM-5インストール方法(Ollama使用)
WindowsへのGLM-5インストールはOllamaを使う方法が最もシンプルです。OllamaはGLM-5の最適化版(glm-5:cloud)を公式サポートしており、1コマンドでローカル実行できます。
1 Ollamaをダウンロード・インストール
公式サイト ollama.com からWindows版インストーラー(OllamaSetup.exe)をダウンロードしてインストールします。完了後タスクバーにOllamaアイコンが表示されます。
必要環境:Windows 10/11(64ビット)、NVIDIA GPU(VRAM 24GB以上推奨)、RAM 32GB以上、ストレージ 60GB以上
2 PowerShellでGLM-5を取得・起動
PowerShellまたはコマンドプロンプトを開き以下を実行します:
# GLM-5 cloudバリアントをダウンロード(推奨)
ollama run glm-5:cloud
# プル後に起動する場合
ollama pull glm-5:cloud
ollama run glm-5:cloud
# 日本語でチャット開始例
# >>> あなたは優秀なAIアシスタントです。日本語で会話してください。
ダウンロードサイズ:glm-5:cloudで約50GB。Wi-Fi推奨(1000Mbps回線なら約7分で完了)。
3 Open WebUIでブラウザから操作
# DockerでOpen WebUIを起動
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
ghcr.io/open-webui/open-webui:main
# ブラウザで http://localhost:3000 にアクセス
# モデル選択で glm-5:cloud を選択
Open WebUIではコード表示の構文ハイライト、ファイルアップロード、会話履歴など高度な機能が使えます。
macOSへのインストール方法(Apple Silicon対応)
MacはApple Siliconの統合メモリ(Unified Memory)を活用することで、大型モデルを効率的に実行できます。M2 Ultra・M3 Ultra(192GB)搭載のMac Studioなら、GLM-5のQ4量子化版をスムーズに動かせます。M3 Max(128GB)でも実用的な速度で動作します。
1 Ollamaをインストール(GUIまたはHomebrewで)
# 方法A: Homebrewでインストール
brew install ollama
brew services start ollama
# 方法B: ollama.comからdmgをダウンロード
# → dmgを開いてアプリをApplicationsフォルダへ
# → メニューバーにOllamaアイコンが表示されます
2 GLM-5をダウンロードして実行
# TerminalでGLM-5を起動
ollama run glm-5:cloud
# 起動後のサンプルプロンプト
# >>> 日本語でコードレビューをお願いします。以下のPythonコードを分析してください...
M2/M3 Ultra(192GB)
Q4版で快適動作・約18tok/s。長文コード解析も安定
M3 Max(128GB)
Q2版推奨・約10-14tok/s。実用的な速度で動作
Linux(Ubuntu/Debian)へのインストール
Linuxサーバー環境は企業・研究者向けの最強環境です。複数NVIDIA H100 GPUを使ったvLLMでの高スループット推論や、llama.cppを使ったCPU/GPU混合実行も可能です。
Ubuntu/Debian系での完全インストール手順
# Step 1: Ollamaをインストール(公式スクリプト)
curl -fsSL https://ollama.com/install.sh | sh
# Step 2: サービス確認
systemctl status ollama
# Step 3: GLM-5をダウンロード・起動
ollama run glm-5:cloud
# Step 4: vLLMでAPIサーバーとして起動(高スループット)
pip install vllm
vllm serve zai-org/GLM-5 \
--tensor-parallel-size 4 \
--max-model-len 32768 \
--port 8000
# Step 5: curlでAPIテスト
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model":"GLM-5","messages":[{"role":"user","content":"こんにちは"}]}'
フルBF16モデルはNVIDIA H100×4(320GB VRAM)以上が必要です。一般ユーザーにはollamaの量子化版を推奨します。
AndroidスマートフォンでGLM-5を使う方法
スマートフォンでのローカル実行は現実的ではないため、ZhipuAI公式アプリまたはAPI経由での利用を推奨します。ZhipuAIが提供する公式アプリ「智谱清言」はAndroid・iOSの両方で利用可能です。
方法1 ZhipuAI公式アプリ「智谱清言」を使う
Google PlayストアまたはAPKファイルで「智谱清言」(Zhipu Qingyan)をインストールします。アカウント登録後にGLM-5にアクセスできます。
中国語・英語・日本語に対応。スマートフォン最適化UIで会話・コーディング補助・文書要約が使えます。
方法2 Termux + GLM API経由でコマンドラインから使う
# F-DroidからTermuxをインストール
pkg update && pkg install python
pip install zhipuai
# GLM-5 APIを呼び出すスクリプト
python3 -c "
from zhipuai import ZhipuAI
client = ZhipuAI(api_key='YOUR_API_KEY')
resp = client.chat.completions.create(
model='glm-5',
messages=[{'role':'user','content':'日本語で挨拶してください'}]
)
print(resp.choices[0].message.content)
"
iPhoneでGLM-5を使う方法
iPhoneでGLM-5を利用するには公式アプリまたはOpenAI互換APIクライアントを使います。ZhipuAIのAPIはOpenAI互換形式で提供されているため、多くの汎用AIクライアントアプリから直接接続できます。
1 OpenCat / Chathub経由でAPIに接続
App Storeで「OpenCat」または「Chathub」をインストールします。設定でカスタムAPIエンドポイントを追加します:
https://open.bigmodel.cn/api/paas/v4/
glm-5
GLM-5 APIは1Mトークンあたり約$0.5〜$3.0。コーディング補助・日本語文書要約・データ分析など幅広い用途に活用できます。
よくあるトラブルと解決方法
❌ 問題:ollama run glm-5:cloud でエラーが出る
Ollamaのバージョンが古い可能性があります。ollama --versionで確認後、ollama.comから最新版(v0.17.6以降)をダウンロードしてください。
⚠️ 問題:ダウンロードが途中で中断する
HuggingFaceまたはOllamaのCDNへの接続が不安定な場合に発生します。VPN07の1000Mbps高速回線に切り替えると安定してダウンロードできます。同じコマンドを再実行すると途中から再開します。
✅ 問題:日本語の出力精度を上げたい
システムプロンプトで「必ず日本語で回答し、敬体(ですます調)を使ってください」と指定するだけで出力品質が大幅に向上します。GLM-5は日本語能力が非常に高く、自然な日本語文章を生成できます。
大型モデルを高速ダウンロードするための接続最適化
GLM-5のモデルファイルは約50GB以上の大容量です。HuggingFaceのサーバーへの接続品質によってダウンロード時間が大きく変わります。不安定な接続だと途中で中断するリスクもあります。
💡 高速・安定ダウンロードのヒント
- 深夜帯(23時〜6時)のダウンロードで混雑を回避
- 有線LAN接続でWi-Fiより安定した速度を確保
- VPN07の1000Mbps専用高速回線でHuggingFace/Ollamaへの接続を安定化
- ModelScopeミラー利用:
HF_ENDPOINT=https://hf-mirror.com ollama pull glm-5:cloud
VPN07:AIモデルを安定・超高速にダウンロード
10年以上の実績・IEPL専用回線・世界70カ国対応
GLM-5などの大型LLMモデルのダウンロードにはHuggingFaceやOllamaへの安定接続が不可欠です。VPN07の1000Mbps超高速専用回線なら、50GBモデルもわずか数分でダウンロード可能。AI APIへの接続も最適化されます。月額$1.5・30日間返金保証で安心してお試しいただけます。