智谱GLM-4安装教程2026:Ollama全平台快速本地部署指南
本文导读:GLM-4 是清华大学技术衍生公司智谱AI(Zhipu AI)开发的旗舰开源大模型,拥有 90 亿到 310 亿不等的参数规模,以超强的中文指令跟随能力和工具调用(Function Calling)特性广受开发者好评。本教程提供 Windows、macOS、Linux、Android 和 iPhone 全平台的独立安装步骤,无需依赖任何第三方平台账号,数据完全保存在本机。
GLM-4 简介:国产最强工具调用大模型
GLM-4 全称 General Language Model 第四代,由智谱AI在 2024 年发布,随后持续迭代至 2026 年的 GLM-4-9B-Chat 和 GLM-4-Plus 版本。与其他开源大模型相比,GLM-4 的核心优势有三点:
原生工具调用
内置 Function Calling 和 Code Interpreter,可自主调用外部API、执行Python代码,是 AI Agent 开发的理想底座。
超强中文能力
基于清华 NLP 实验室深厚积累,中文理解、写作、翻译和知识问答能力在同参数级别位居顶尖。
轻量高效
GLM-4-9B 只需 8GB 显存,主流游戏本即可流畅运行,远比 34B 以上大模型省资源。
Windows 安装 GLM-4 教程
Windows 用户有两种安装方式:Ollama 命令行方式(简单快捷)和 LM Studio 图形界面方式(适合不熟悉命令行的用户)。两种方式均可在 5 分钟内完成 GLM-4 的本地安装。
方式一:Ollama 安装(推荐)
① 访问 ollama.com 下载 Windows 安装包并安装
② 打开 PowerShell,运行以下命令
# 下载 GLM-4-9B(约 5.5GB,适合大多数显卡)
ollama pull glm4
# 启动对话
ollama run glm4
# 或下载更大的 GLM-4-32B(约 19GB,需 24GB 显存)
ollama pull glm4:32b
方式二:LM Studio 图形界面安装
访问 lmstudio.ai 下载并安装 LM Studio(免费)。打开后点击顶部搜索框,输入"GLM-4",在搜索结果中选择"THUDM/glm-4-9b-chat-GGUF",点击下载即可。下载完成后,在右侧"Load Model"加载模型,即可开始图形对话界面。
💡 Windows 显存不足时的解决方案
如果显存低于 8GB,可以用 Ollama 的 GPU 分层参数,让模型一部分在 GPU 运行、一部分在 CPU 内存运行:ollama run glm4 --gpu-layers 20。数字越大使用 GPU 越多,根据实际情况调整。
macOS 安装 GLM-4 教程
macOS 用户(Apple Silicon 或 Intel Mac 均支持)推荐使用 Homebrew 安装 Ollama,操作简便,自动处理系统依赖。M1/M2/M3 Mac 利用统一内存架构,运行 GLM-4-9B 流畅无卡顿,实测每秒可生成 30+ token。
# 如果没有 Homebrew,先安装:
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
# 安装 Ollama
brew install ollama
# 在后台启动 Ollama 服务
brew services start ollama
# 下载并运行 GLM-4
ollama pull glm4
ollama run glm4
GLM-4 支持长达 128K 的上下文窗口,这意味着你可以把整本书或完整代码库粘贴给它分析,这是 GLM-4 相比其他同参数大模型的突出优势之一。
# 验证模型已成功加载
ollama list
# 输出示例:
# NAME ID SIZE MODIFIED
# glm4:latest xxx 5.5GB just now
# 测试对话
ollama run glm4 "请用中文介绍一下你自己"
Linux 安装 GLM-4 教程
Linux 是运行 GLM-4 的最佳服务器环境,支持 NVIDIA GPU 加速,可以部署为 API 服务供多人使用。以下步骤在 Ubuntu 22.04 LTS 环境下测试通过。
# 一行命令安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 设置 Ollama 开机自启
sudo systemctl enable ollama
sudo systemctl start ollama
# 下载 GLM-4-9B(推荐生产环境首选)
ollama pull glm4
# 部署为 API 服务(允许局域网访问)
OLLAMA_HOST=0.0.0.0:11434 ollama serve
配合 Open WebUI 搭建企业级 AI 助手
Open WebUI 是最受欢迎的 Ollama 图形前端,支持多用户管理、对话历史和文件上传。使用 Docker 一键部署:
# 使用 Docker 部署 Open WebUI
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
ghcr.io/open-webui/open-webui:main
# 打开浏览器访问:http://localhost:3000
Android 手机安装 GLM-4 教程
Android 手机可以运行 GLM-4 的轻量量化版(GLM-4-9B Q4,约 5GB),推荐使用骁龙 8 Gen 2 以上的旗舰手机,至少需要 8GB RAM + 6GB 可用存储空间。
① 使用 ChatterUI 运行 GLM-4
在 Google Play 或 GitHub 搜索"ChatterUI"下载安装。从 HuggingFace 下载 THUDM/glm-4-9b-chat-GGUF 中的 Q4_K_M 版本(约 5.5GB),保存到手机存储,在 ChatterUI 中导入模型文件即可开始对话。
② 远程连接电脑上的 GLM-4(推荐方案)
如果手机性能不足,可以在电脑上运行 GLM-4,手机通过局域网远程访问。在电脑上运行 OLLAMA_HOST=0.0.0.0:11434 ollama serve,手机端使用 Enchanted 或 Mango 等 App 连接电脑 IP,即可在手机上享受 GLM-4 的完整能力。
iPhone / iPad 安装 GLM-4 教程
iPhone 用户可通过 PocketPal AI 或 Enchanted 两种方式使用 GLM-4,前者在本机运行,后者连接局域网电脑远程使用。
方案一:PocketPal AI 本机运行(iPhone 15 Pro / iPad)
App Store 下载 PocketPal AI,在内置模型库搜索"GLM",选择"GLM-4-9B Q4_K_M"(约 5GB),点击下载。下载完成后加载模型,即可开始本地离线对话,完全不需要网络连接。
方案二:Enchanted 连接电脑(所有 iPhone 均适用)
App Store 下载"Enchanted LLM"(免费),在设置中填入运行 GLM-4 的电脑局域网 IP(如 192.168.1.100:11434),保存后即可在 iPhone 上流畅使用高性能 GLM-4,延迟仅有几十毫秒。
GLM-4 API 调用开发者指南
GLM-4 通过 Ollama 本地部署后,自动提供兼容 OpenAI API 格式的接口,可以用相同代码替换 OpenAI/ChatGPT 的调用,开发成本为零。
# Python 调用示例(兼容 OpenAI SDK)
from openai import OpenAI
client = OpenAI(
base_url='http://localhost:11434/v1',
api_key='ollama' # 本地不需要真实密钥
)
response = client.chat.completions.create(
model='glm4',
messages=[{"role": "user", "content": "请写一首关于春天的诗"}]
)
print(response.choices[0].message.content)
🔗 GLM-4 工具调用(Function Calling)示例
GLM-4 的最大亮点是原生支持工具调用,可以定义函数让模型自主决定何时调用,实现自动搜索网络、查询数据库、执行代码等高级功能。这是构建 AI Agent(智能体)的核心能力,也是 GLM-4 在同参数级别中最具竞争力的特性。
常见问题解答
Q1:ollama pull glm4 下载速度很慢怎么办?
Ollama 的模型仓库托管在境外,国内直连速度受限。推荐使用 VPN07 网络加速,其 1000Mbps 千兆带宽节点可大幅提升下载速度,GLM-4-9B(5.5GB)约 10 分钟即可下载完成。VPN07 月费仅 ¥9,还提供 30 天无理由退款保障。
Q2:GLM-4 和 ChatGLM3 有什么区别?
GLM-4 是 ChatGLM 系列的最新一代,相比 ChatGLM3 在以下方面有显著提升:1)指令跟随能力提升 30% 以上;2)新增原生 Function Calling 支持;3)上下文长度从 32K 扩展到 128K;4)多模态版本(GLM-4V)支持图片理解。
Q3:GLM-4-9B 和 GLM-4-32B 如何选择?
显存 8-16GB 选 GLM-4-9B,速度快,适合日常对话和简单代码任务;显存 24GB 以上选 GLM-4-32B,能力更强,适合复杂推理、长文档分析和高质量代码生成。两者都支持 128K 上下文。
GLM-4V:多模态图像理解版本安装指南
除了纯文本版本,智谱AI 还发布了支持图像理解的 GLM-4V 系列。GLM-4V-9B 可以分析图片内容、理解图表数据、识别文档图像,是多模态应用的理想选择。
# 下载 GLM-4V 多模态版本
ollama pull glm4:9b-vision
# 通过 API 进行图像理解(Python 示例)
import base64
from openai import OpenAI
client = OpenAI(base_url='http://localhost:11434/v1', api_key='ollama')
# 读取并编码图片
with open('chart.png', 'rb') as f:
img_b64 = base64.b64encode(f.read()).decode()
response = client.chat.completions.create(
model='glm4:9b-vision',
messages=[{
"role": "user",
"content": [
{"type": "image_url", "image_url": {"url": f"data:image/png;base64,{img_b64}"}},
{"type": "text", "text": "请分析这张图表中的数据趋势"}
]
}]
)
📷 GLM-4V 典型使用场景
- 📊 数据可视化分析:上传图表,让 GLM-4V 自动解读数据趋势和关键数字
- 📄 文档 OCR 理解:上传扫描版 PDF 或图片,提取文字并回答问题
- 🔍 图片内容描述:自动生成图片的详细文字描述,适合电商产品描述自动化
- 🐛 界面 Bug 识别:上传 App 截图,让 GLM-4V 指出 UI 问题和改进建议
GLM-4 与主流开源模型横向对比
在选择使用 GLM-4 之前,了解它与其他主流开源模型的差异非常重要。以下是基于社区实测数据整理的横向对比,帮助你判断 GLM-4 是否最适合你的使用场景:
| 模型 | 中文能力 | 工具调用 | 代码生成 | 显存要求 |
|---|---|---|---|---|
| GLM-4-9B ★ | ★★★★★ | ★★★★★ | ★★★★ | 8GB |
| Qwen3.5-7B | ★★★★★ | ★★★ | ★★★★ | 6GB |
| DeepSeek-R1-7B | ★★★★ | ★★★ | ★★★★★ | 6GB |
| Llama4-Scout | ★★★ | ★★★★ | ★★★★ | 16GB |
从上表可以看出,GLM-4 在工具调用(Function Calling)方面独占鳌头,是构建 AI Agent 的最佳选择。如果你的核心需求是让 AI 自主调用外部工具、执行代码、查询数据库,GLM-4-9B 是目前显存需求最低、工具调用能力最强的开源模型。
🏆 GLM-4 最适合哪类用户?
- ✅ AI Agent 开发者:需要原生 Function Calling 的本地底座模型
- ✅ 中文内容创作者:中文写作、翻译、文案润色需求强烈
- ✅ 企业私有化部署:数据不出内网,结合 Open WebUI 多用户管理
- ✅ 显存有限的用户:8GB 显存即可流畅运行 9B 版本,入门门槛低
- ❌ 纯数学推理需求:建议用 DeepSeek-R1 系列,推理能力更专业
GLM-4 本地部署后的实战应用场景
完成 GLM-4 安装后,以下是几个最值得尝试的实际应用场景,充分发挥 GLM-4 的独特优势:
构建本地 AI Agent
利用 GLM-4 的原生 Function Calling,搭配 Python 工具函数(搜索网络、查询数据库、发送邮件),创建可以自主完成任务的 AI 助手,完全运行在本地,数据不出机器。
自动化内容生产
批量生成文章摘要、产品描述、社交媒体帖子,GLM-4 的高质量中文输出和稳定的指令遵循能力,让内容生产效率提升 10 倍以上。
企业客服机器人
将产品文档、FAQ 和政策文件上传到 AnythingLLM,以 GLM-4 为底座构建企业私有客服机器人,回答员工或客户问题,所有数据保留在公司内网。
学术研究助理
上传论文 PDF,让 GLM-4 进行文献综述、提取核心方法、对比不同研究结论。128K 上下文可以同时处理多篇论文,非常适合研究生和学者使用。