智谱GLM-4安装教程2026：Ollama全平台本地部署指南

开源大语言模型下载中心

GLM-4 / DeepSeek / Qwen / Llama 4 一站下载

立即下载模型 →

本文导读：GLM-4 是清华大学技术衍生公司智谱AI（Zhipu AI）开发的旗舰开源大模型，拥有 90 亿到 310 亿不等的参数规模，以超强的中文指令跟随能力和工具调用（Function Calling）特性广受开发者好评。本教程提供 Windows、macOS、Linux、Android 和 iPhone 全平台的独立安装步骤，无需依赖任何第三方平台账号，数据完全保存在本机。

GLM-4 简介：国产最强工具调用大模型

GLM-4 全称 General Language Model 第四代，由智谱AI在 2024 年发布，随后持续迭代至 2026 年的 GLM-4-9B-Chat 和 GLM-4-Plus 版本。与其他开源大模型相比，GLM-4 的核心优势有三点：

🛠️

原生工具调用

内置 Function Calling 和 Code Interpreter，可自主调用外部API、执行Python代码，是 AI Agent 开发的理想底座。

🇨🇳

超强中文能力

基于清华 NLP 实验室深厚积累，中文理解、写作、翻译和知识问答能力在同参数级别位居顶尖。

⚡

轻量高效

GLM-4-9B 只需 8GB 显存，主流游戏本即可流畅运行，远比 34B 以上大模型省资源。

9B~32B

参数规模

8GB+

最低显存

Apache 2.0

开源协议

中英双语

语言支持

Windows 安装 GLM-4 教程

Windows 用户有两种安装方式：Ollama 命令行方式（简单快捷）和 LM Studio 图形界面方式（适合不熟悉命令行的用户）。两种方式均可在 5 分钟内完成 GLM-4 的本地安装。

方式一：Ollama 安装（推荐）

① 访问 ollama.com 下载 Windows 安装包并安装

② 打开 PowerShell，运行以下命令


                        # 下载 GLM-4-9B（约 5.5GB，适合大多数显卡）

                        ollama pull glm4


                        # 启动对话

                        ollama run glm4


                        # 或下载更大的 GLM-4-32B（约 19GB，需 24GB 显存）

                        ollama pull glm4:32b

方式二：LM Studio 图形界面安装

访问 lmstudio.ai 下载并安装 LM Studio（免费）。打开后点击顶部搜索框，输入"GLM-4"，在搜索结果中选择"THUDM/glm-4-9b-chat-GGUF"，点击下载即可。下载完成后，在右侧"Load Model"加载模型，即可开始图形对话界面。

💡 Windows 显存不足时的解决方案

如果显存低于 8GB，可以用 Ollama 的 GPU 分层参数，让模型一部分在 GPU 运行、一部分在 CPU 内存运行：ollama run glm4 --gpu-layers 20。数字越大使用 GPU 越多，根据实际情况调整。

macOS 安装 GLM-4 教程

macOS 用户（Apple Silicon 或 Intel Mac 均支持）推荐使用 Homebrew 安装 Ollama，操作简便，自动处理系统依赖。M1/M2/M3 Mac 利用统一内存架构，运行 GLM-4-9B 流畅无卡顿，实测每秒可生成 30+ token。


                        # 如果没有 Homebrew，先安装：

                        /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"


                        # 安装 Ollama

                        brew install ollama


                        # 在后台启动 Ollama 服务

                        brew services start ollama


                        # 下载并运行 GLM-4

                        ollama pull glm4

                        ollama run glm4

GLM-4 支持长达 128K 的上下文窗口，这意味着你可以把整本书或完整代码库粘贴给它分析，这是 GLM-4 相比其他同参数大模型的突出优势之一。


                        # 验证模型已成功加载

                        ollama list


                        # 输出示例：

                        # NAME      ID      SIZE    MODIFIED

                        # glm4:latest  xxx  5.5GB  just now


                        # 测试对话

                        ollama run glm4 "请用中文介绍一下你自己"

Linux 安装 GLM-4 教程

Linux 是运行 GLM-4 的最佳服务器环境，支持 NVIDIA GPU 加速，可以部署为 API 服务供多人使用。以下步骤在 Ubuntu 22.04 LTS 环境下测试通过。


                        # 一行命令安装 Ollama

                        curl -fsSL https://ollama.com/install.sh | sh


                        # 设置 Ollama 开机自启

                        sudo systemctl enable ollama

                        sudo systemctl start ollama


                        # 下载 GLM-4-9B（推荐生产环境首选）

                        ollama pull glm4


                        # 部署为 API 服务（允许局域网访问）

                        OLLAMA_HOST=0.0.0.0:11434 ollama serve

配合 Open WebUI 搭建企业级 AI 助手

Open WebUI 是最受欢迎的 Ollama 图形前端，支持多用户管理、对话历史和文件上传。使用 Docker 一键部署：


                        # 使用 Docker 部署 Open WebUI

                        docker run -d -p 3000:8080 \

                          --add-host=host.docker.internal:host-gateway \

                          -v open-webui:/app/backend/data \

                          --name open-webui \

                          ghcr.io/open-webui/open-webui:main


                        # 打开浏览器访问：http://localhost:3000

Android 手机安装 GLM-4 教程

Android 手机可以运行 GLM-4 的轻量量化版（GLM-4-9B Q4，约 5GB），推荐使用骁龙 8 Gen 2 以上的旗舰手机，至少需要 8GB RAM + 6GB 可用存储空间。

① 使用 ChatterUI 运行 GLM-4

在 Google Play 或 GitHub 搜索"ChatterUI"下载安装。从 HuggingFace 下载 THUDM/glm-4-9b-chat-GGUF 中的 Q4_K_M 版本（约 5.5GB），保存到手机存储，在 ChatterUI 中导入模型文件即可开始对话。

② 远程连接电脑上的 GLM-4（推荐方案）

如果手机性能不足，可以在电脑上运行 GLM-4，手机通过局域网远程访问。在电脑上运行 OLLAMA_HOST=0.0.0.0:11434 ollama serve，手机端使用 Enchanted 或 Mango 等 App 连接电脑 IP，即可在手机上享受 GLM-4 的完整能力。

iPhone / iPad 安装 GLM-4 教程

iPhone 用户可通过 PocketPal AI 或 Enchanted 两种方式使用 GLM-4，前者在本机运行，后者连接局域网电脑远程使用。

方案一：PocketPal AI 本机运行（iPhone 15 Pro / iPad）

App Store 下载 PocketPal AI，在内置模型库搜索"GLM"，选择"GLM-4-9B Q4_K_M"（约 5GB），点击下载。下载完成后加载模型，即可开始本地离线对话，完全不需要网络连接。

方案二：Enchanted 连接电脑（所有 iPhone 均适用）

App Store 下载"Enchanted LLM"（免费），在设置中填入运行 GLM-4 的电脑局域网 IP（如 192.168.1.100:11434），保存后即可在 iPhone 上流畅使用高性能 GLM-4，延迟仅有几十毫秒。

GLM-4 API 调用开发者指南

GLM-4 通过 Ollama 本地部署后，自动提供兼容 OpenAI API 格式的接口，可以用相同代码替换 OpenAI/ChatGPT 的调用，开发成本为零。


                        # Python 调用示例（兼容 OpenAI SDK）

                        from openai import OpenAI


                        client = OpenAI(

                            base_url='http://localhost:11434/v1',

                            api_key='ollama'  # 本地不需要真实密钥

                        )


                        response = client.chat.completions.create(

                            model='glm4',

                            messages=[{"role": "user", "content": "请写一首关于春天的诗"}]

                        )

                        print(response.choices[0].message.content)

🔗 GLM-4 工具调用（Function Calling）示例

GLM-4 的最大亮点是原生支持工具调用，可以定义函数让模型自主决定何时调用，实现自动搜索网络、查询数据库、执行代码等高级功能。这是构建 AI Agent（智能体）的核心能力，也是 GLM-4 在同参数级别中最具竞争力的特性。

常见问题解答

Q1：ollama pull glm4 下载速度很慢怎么办？

Ollama 的模型仓库托管在境外，国内直连速度受限。推荐使用 VPN07 网络加速，其 1000Mbps 千兆带宽节点可大幅提升下载速度，GLM-4-9B（5.5GB）约 10 分钟即可下载完成。VPN07 月费仅 ¥9，还提供 30 天无理由退款保障。

Q2：GLM-4 和 ChatGLM3 有什么区别？

GLM-4 是 ChatGLM 系列的最新一代，相比 ChatGLM3 在以下方面有显著提升：1）指令跟随能力提升 30% 以上；2）新增原生 Function Calling 支持；3）上下文长度从 32K 扩展到 128K；4）多模态版本（GLM-4V）支持图片理解。

Q3：GLM-4-9B 和 GLM-4-32B 如何选择？

显存 8-16GB 选 GLM-4-9B，速度快，适合日常对话和简单代码任务；显存 24GB 以上选 GLM-4-32B，能力更强，适合复杂推理、长文档分析和高质量代码生成。两者都支持 128K 上下文。

GLM-4V：多模态图像理解版本安装指南

除了纯文本版本，智谱AI 还发布了支持图像理解的 GLM-4V 系列。GLM-4V-9B 可以分析图片内容、理解图表数据、识别文档图像，是多模态应用的理想选择。


                        # 下载 GLM-4V 多模态版本

                        ollama pull glm4:9b-vision


                        # 通过 API 进行图像理解（Python 示例）

                        import base64

                        from openai import OpenAI


                        client = OpenAI(base_url='http://localhost:11434/v1', api_key='ollama')


                        # 读取并编码图片

                        with open('chart.png', 'rb') as f:

                            img_b64 = base64.b64encode(f.read()).decode()


                        response = client.chat.completions.create(

                            model='glm4:9b-vision',

                            messages=[{

                                "role": "user",

                                "content": [

                                    {"type": "image_url", "image_url": {"url": f"data:image/png;base64,{img_b64}"}},

                                    {"type": "text", "text": "请分析这张图表中的数据趋势"}

                                ]

                            }]

                        )

📷 GLM-4V 典型使用场景

📊 数据可视化分析：上传图表，让 GLM-4V 自动解读数据趋势和关键数字
📄 文档 OCR 理解：上传扫描版 PDF 或图片，提取文字并回答问题
🔍 图片内容描述：自动生成图片的详细文字描述，适合电商产品描述自动化
🐛 界面 Bug 识别：上传 App 截图，让 GLM-4V 指出 UI 问题和改进建议

GLM-4 与主流开源模型横向对比

在选择使用 GLM-4 之前，了解它与其他主流开源模型的差异非常重要。以下是基于社区实测数据整理的横向对比，帮助你判断 GLM-4 是否最适合你的使用场景：

模型	中文能力	工具调用	代码生成	显存要求
GLM-4-9B ★	★★★★★	★★★★★	★★★★	8GB
Qwen3.5-7B	★★★★★	★★★	★★★★	6GB
DeepSeek-R1-7B	★★★★	★★★	★★★★★	6GB
Llama4-Scout	★★★	★★★★	★★★★	16GB

从上表可以看出，GLM-4 在工具调用（Function Calling）方面独占鳌头，是构建 AI Agent 的最佳选择。如果你的核心需求是让 AI 自主调用外部工具、执行代码、查询数据库，GLM-4-9B 是目前显存需求最低、工具调用能力最强的开源模型。

🏆 GLM-4 最适合哪类用户？

✅ AI Agent 开发者：需要原生 Function Calling 的本地底座模型
✅ 中文内容创作者：中文写作、翻译、文案润色需求强烈
✅ 企业私有化部署：数据不出内网，结合 Open WebUI 多用户管理
✅ 显存有限的用户：8GB 显存即可流畅运行 9B 版本，入门门槛低
❌ 纯数学推理需求：建议用 DeepSeek-R1 系列，推理能力更专业

还想体验更多开源大模型？

GLM-4 / DeepSeek / Llama 4 / Gemma 一站下载

查看全部模型 →

VPN07 加速部署 GLM-4

下载提速 100倍 · 1000Mbps · 十年稳定运营

部署 GLM-4 需要从 Ollama 或 HuggingFace 下载几GB到几十GB的模型文件，国内访问速度很慢。VPN07 运营十年，提供 70+ 国家节点，1000Mbps 千兆带宽，¥9/月的超低价格让每位 AI 开发者都能轻松加速，同时享有 30 天无理由退款保障。

¥9/月

超低月费

1000Mbps

千兆带宽

70+国家

全球节点

30天退款

无理由退款

免费试用VPN07 查看价格方案

GLM-4 本地部署后的实战应用场景

完成 GLM-4 安装后，以下是几个最值得尝试的实际应用场景，充分发挥 GLM-4 的独特优势：

🤖

构建本地 AI Agent

利用 GLM-4 的原生 Function Calling，搭配 Python 工具函数（搜索网络、查询数据库、发送邮件），创建可以自主完成任务的 AI 助手，完全运行在本地，数据不出机器。

📰

自动化内容生产

批量生成文章摘要、产品描述、社交媒体帖子，GLM-4 的高质量中文输出和稳定的指令遵循能力，让内容生产效率提升 10 倍以上。

💬

企业客服机器人

将产品文档、FAQ 和政策文件上传到 AnythingLLM，以 GLM-4 为底座构建企业私有客服机器人，回答员工或客户问题，所有数据保留在公司内网。

🔬

学术研究助理

上传论文 PDF，让 GLM-4 进行文献综述、提取核心方法、对比不同研究结论。128K 上下文可以同时处理多篇论文，非常适合研究生和学者使用。

📋 GLM-4 快速上手检查清单

✅ 已安装 Ollama（ollama --version 正常输出） ✅ 已下载 GLM-4（ollama list 中可以看到 glm4） ✅ 命令行对话测试通过（ollama run glm4 "你好"） ✅ 安装 Open WebUI 或 LM Studio（图形界面） ✅ 开启 VPN07 加速下载（确保高速稳定）

智谱GLM-4安装教程2026：Ollama全平台快速本地部署指南