VPN07

GLM-5 インストール完全ガイド!Windows・Mac・Android・iPhone全対応【2026年最新版】

2026-03-06 約15分で読める GLM-5 ZhipuAI ローカルAI
オープンソース大規模言語モデル ダウンロードセンター
GLM-5 / Kimi K2.5 / DeepSeek / Llama 4 一覧はこちら
モデルを見る →

この記事について:中国の清華大学発スタートアップ・智谱AI(ZhipuAI/Z.ai)が開発したGLM-5は、2026年に公開された最先端のオープンソースMoEモデルです。総パラメータ744B・実行時40Bという高効率アーキテクチャを採用し、AIME 2026で92.7%・SWE-bench Verifiedで77.8%という驚異的なスコアを記録しました。MITライセンスで公開されており、商用・個人利用ともに完全無料です。本記事では、すべてのプラットフォームにGLM-5をローカルインストールする具体的な手順を解説します。

GLM-5とは?GLM-4との違いと2026年の注目ポイント

GLM-5(General Language Model 5)は、前世代のGLM-4から大幅に進化したZhipuAIの最新フラッグシップモデルです。最大の違いはアーキテクチャで、GLM-4が密なTransformerだったのに対し、GLM-5はSparse MoE(まばら専門家混合)構造を採用。総パラメータ744Bのうち、1トークンあたりの推論時に使用するのは40Bのみという驚異的な計算効率を実現しています。

744B
総パラメータ数
40B
実行時使用数
198K
コンテキスト長
MIT
ライセンス

GLM-5が特に優れているのはコーディング・ソフトウェアエンジニアリング分野です。DeepSeek Sparse Attention(DSA)技術により198Kトークンの超長文コンテキストに対応し、大規模コードベースの解析も一度に処理できます。また、英語・中国語・日本語を含む多言語に対応しており、日本語での利用も非常に自然な文章が生成されます。

🥇

GLM-5 - ソフトウェアエンジニアリング特化の最強オープンソースAI

9.5/10点
92.7%
AIME 2026 I
86.0%
GPQA-Diamond
77.8%
SWE-bench
28.5T
学習トークン数

プラットフォーム別 推奨スペックとモデル選択

デバイス別 GLM-5実行環境ガイド

デバイス VRAM/RAM 推奨バリアント 応答速度
RTX 4090 × 2以上 48GB+ glm-5:cloud (Q4) 20+tok/s
RTX 4090 単体 (24GB) 24GB glm-5:cloud (Q2) 12+tok/s
Mac M2/M3 Ultra (192GB) 192GB glm-5:cloud (Q4) 18+tok/s
高スペックLinux (H100×4) 320GB+ BF16 フルモデル 40+tok/s
一般PC (RTX 3080) 10-16GB GLM API経由推奨 クラウド速度
Android / iPhone 8GB+ API接続推奨 クラウド速度

WindowsへのGLM-5インストール方法(Ollama使用)

WindowsへのGLM-5インストールはOllamaを使う方法が最もシンプルです。OllamaはGLM-5の最適化版(glm-5:cloud)を公式サポートしており、1コマンドでローカル実行できます。

1 Ollamaをダウンロード・インストール

公式サイト ollama.com からWindows版インストーラー(OllamaSetup.exe)をダウンロードしてインストールします。完了後タスクバーにOllamaアイコンが表示されます。

必要環境:Windows 10/11(64ビット)、NVIDIA GPU(VRAM 24GB以上推奨)、RAM 32GB以上、ストレージ 60GB以上

2 PowerShellでGLM-5を取得・起動

PowerShellまたはコマンドプロンプトを開き以下を実行します:

# GLM-5 cloudバリアントをダウンロード(推奨)
ollama run glm-5:cloud

# プル後に起動する場合
ollama pull glm-5:cloud
ollama run glm-5:cloud

# 日本語でチャット開始例
# >>> あなたは優秀なAIアシスタントです。日本語で会話してください。

ダウンロードサイズ:glm-5:cloudで約50GB。Wi-Fi推奨(1000Mbps回線なら約7分で完了)。

3 Open WebUIでブラウザから操作

# DockerでOpen WebUIを起動
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
ghcr.io/open-webui/open-webui:main

# ブラウザで http://localhost:3000 にアクセス
# モデル選択で glm-5:cloud を選択

Open WebUIではコード表示の構文ハイライト、ファイルアップロード、会話履歴など高度な機能が使えます。

macOSへのインストール方法(Apple Silicon対応)

MacはApple Siliconの統合メモリ(Unified Memory)を活用することで、大型モデルを効率的に実行できます。M2 Ultra・M3 Ultra(192GB)搭載のMac Studioなら、GLM-5のQ4量子化版をスムーズに動かせます。M3 Max(128GB)でも実用的な速度で動作します。

1 Ollamaをインストール(GUIまたはHomebrewで)

# 方法A: Homebrewでインストール
brew install ollama
brew services start ollama

# 方法B: ollama.comからdmgをダウンロード
# → dmgを開いてアプリをApplicationsフォルダへ
# → メニューバーにOllamaアイコンが表示されます

2 GLM-5をダウンロードして実行

# TerminalでGLM-5を起動
ollama run glm-5:cloud

# 起動後のサンプルプロンプト
# >>> 日本語でコードレビューをお願いします。以下のPythonコードを分析してください...

M2/M3 Ultra(192GB)

Q4版で快適動作・約18tok/s。長文コード解析も安定

M3 Max(128GB)

Q2版推奨・約10-14tok/s。実用的な速度で動作

Linux(Ubuntu/Debian)へのインストール

Linuxサーバー環境は企業・研究者向けの最強環境です。複数NVIDIA H100 GPUを使ったvLLMでの高スループット推論や、llama.cppを使ったCPU/GPU混合実行も可能です。

Ubuntu/Debian系での完全インストール手順

# Step 1: Ollamaをインストール(公式スクリプト)
curl -fsSL https://ollama.com/install.sh | sh

# Step 2: サービス確認
systemctl status ollama

# Step 3: GLM-5をダウンロード・起動
ollama run glm-5:cloud

# Step 4: vLLMでAPIサーバーとして起動(高スループット)
pip install vllm
vllm serve zai-org/GLM-5 \
--tensor-parallel-size 4 \
--max-model-len 32768 \
--port 8000

# Step 5: curlでAPIテスト
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model":"GLM-5","messages":[{"role":"user","content":"こんにちは"}]}'

フルBF16モデルはNVIDIA H100×4(320GB VRAM)以上が必要です。一般ユーザーにはollamaの量子化版を推奨します。

AndroidスマートフォンでGLM-5を使う方法

スマートフォンでのローカル実行は現実的ではないため、ZhipuAI公式アプリまたはAPI経由での利用を推奨します。ZhipuAIが提供する公式アプリ「智谱清言」はAndroid・iOSの両方で利用可能です。

方法1 ZhipuAI公式アプリ「智谱清言」を使う

Google PlayストアまたはAPKファイルで「智谱清言」(Zhipu Qingyan)をインストールします。アカウント登録後にGLM-5にアクセスできます。

中国語・英語・日本語に対応。スマートフォン最適化UIで会話・コーディング補助・文書要約が使えます。

方法2 Termux + GLM API経由でコマンドラインから使う

# F-DroidからTermuxをインストール
pkg update && pkg install python
pip install zhipuai

# GLM-5 APIを呼び出すスクリプト
python3 -c "
from zhipuai import ZhipuAI
client = ZhipuAI(api_key='YOUR_API_KEY')
resp = client.chat.completions.create(
model='glm-5',
messages=[{'role':'user','content':'日本語で挨拶してください'}]
)
print(resp.choices[0].message.content)
"

iPhoneでGLM-5を使う方法

iPhoneでGLM-5を利用するには公式アプリまたはOpenAI互換APIクライアントを使います。ZhipuAIのAPIはOpenAI互換形式で提供されているため、多くの汎用AIクライアントアプリから直接接続できます。

1 OpenCat / Chathub経由でAPIに接続

App Storeで「OpenCat」または「Chathub」をインストールします。設定でカスタムAPIエンドポイントを追加します:

APIエンドポイント: https://open.bigmodel.cn/api/paas/v4/
モデル名: glm-5
APIキー: ZhipuAIコンソールで取得

GLM-5 APIは1Mトークンあたり約$0.5〜$3.0。コーディング補助・日本語文書要約・データ分析など幅広い用途に活用できます。

よくあるトラブルと解決方法

❌ 問題:ollama run glm-5:cloud でエラーが出る

Ollamaのバージョンが古い可能性があります。ollama --versionで確認後、ollama.comから最新版(v0.17.6以降)をダウンロードしてください。

⚠️ 問題:ダウンロードが途中で中断する

HuggingFaceまたはOllamaのCDNへの接続が不安定な場合に発生します。VPN07の1000Mbps高速回線に切り替えると安定してダウンロードできます。同じコマンドを再実行すると途中から再開します。

✅ 問題:日本語の出力精度を上げたい

システムプロンプトで「必ず日本語で回答し、敬体(ですます調)を使ってください」と指定するだけで出力品質が大幅に向上します。GLM-5は日本語能力が非常に高く、自然な日本語文章を生成できます。

大型モデルを高速ダウンロードするための接続最適化

GLM-5のモデルファイルは約50GB以上の大容量です。HuggingFaceのサーバーへの接続品質によってダウンロード時間が大きく変わります。不安定な接続だと途中で中断するリスクもあります。

💡 高速・安定ダウンロードのヒント

  • 深夜帯(23時〜6時)のダウンロードで混雑を回避
  • 有線LAN接続でWi-Fiより安定した速度を確保
  • VPN07の1000Mbps専用高速回線でHuggingFace/Ollamaへの接続を安定化
  • ModelScopeミラー利用:HF_ENDPOINT=https://hf-mirror.com ollama pull glm-5:cloud
さらに多くのオープンソースLLMをチェック
GLM-5 / Kimi K2.5 / DeepSeek V3 / Llama 4 一覧はこちら
全モデルを見る →

VPN07:AIモデルを安定・超高速にダウンロード

10年以上の実績・IEPL専用回線・世界70カ国対応

GLM-5などの大型LLMモデルのダウンロードにはHuggingFaceやOllamaへの安定接続が不可欠です。VPN07の1000Mbps超高速専用回線なら、50GBモデルもわずか数分でダウンロード可能。AI APIへの接続も最適化されます。月額$1.5・30日間返金保証で安心してお試しいただけます。

$1.5/月
業界最安値
1000Mbps
超高速帯域
70+国
グローバル対応
30日
返金保証

関連記事

月額$1.5 · 10年の実績
VPN07を無料で試す