MiniCPM 安装教程：手机运行AI大模型全平台指南

开源大语言模型下载中心

MiniCPM / DeepSeek / Llama 4 / Gemma 一站下载

立即下载模型 →

教程说明：MiniCPM 是清华大学与面壁智能（ModelBest）联合研发的轻量级大模型，专为手机和低功耗设备优化。MiniCPM-o（全模态版本）支持文字、图片、语音、视频的理解与生成，仅需 3B 参数就能在手机上流畅运行。本文详细介绍如何在安卓手机、iPhone、Windows、macOS 和 Linux 上安装 MiniCPM，让每部手机都能拥有一个高质量的本地 AI 助手。

MiniCPM 是什么？为什么适合手机运行

MiniCPM 最大的特点是在极小的参数规模（1B-8B）下实现了超越预期的性能表现。面壁智能在训练 MiniCPM 时采用了独特的"模型风洞"理论，通过大量小实验来找到最优的训练配方，从而让参数效率最大化。最新的 MiniCPM-o 3.0 版本（8B 参数）是目前手机端性能最强的全模态模型，支持实时语音对话、图像理解和视频分析。

对于中国用户来说，MiniCPM 有一个特别的优势：它是纯正的中文研究团队出品，对中文的理解和生成能力在同等规模中表现卓越，特别擅长中文写作、古诗词解析、中文代码注释等本土化任务。

超轻量，低配手机

旗舰手机推荐

多模态全能版

旗舰全模态版

安卓手机安装 MiniCPM（最推荐方式）

MiniCPM 最亮眼的特性就是可以在安卓手机上本地运行。面壁智能专门发布了 MiniCPM 安卓 App，无需 root、无需命令行，普通用户也能一键体验手机端 AI 大模型。

方式一：MiniCPM 官方安卓 App（最简单）

1访问面壁智能官网（modelbest.cn）或 GitHub 页面（github.com/OpenBMB/MiniCPM）
2在 Release 页面下载最新版 MiniCPM-o-App.apk（约 80MB）
3安装 APK，允许"安装未知来源应用"权限
4打开 App，首次运行会下载模型文件（约 2-3GB），建议连接 WiFi
5下载完成后即可离线使用，支持文字对话、图片分析、语音输入（8B 版本）

骁龙 870+

MiniCPM 1B 流畅

骁龙 8 Gen 2

MiniCPM 3B 推荐

骁龙 8 Gen 3

8B 全模态版本

方式二：Termux + llama.cpp（进阶，支持任意安卓设备）

# 从 F-Droid 安装 Termux
# 在 Termux 中运行：
pkg update && pkg install cmake git python

# 编译 llama.cpp（ARM64 原生性能）
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DLLAMA_NATIVE=ON
cmake --build build --config Release -j4

# 下载 MiniCPM GGUF 格式模型（约 2GB）
# 建议开启 VPN07 从 HuggingFace 下载
pip install huggingface-hub
python -c "
from huggingface_hub import hf_hub_download
hf_hub_download(
    repo_id='openbmb/MiniCPM-o-3B-GGUF',
    filename='MiniCPM-o-3B-Q4_K_M.gguf',
    local_dir='./models/'
)"

# 运行推理
./build/bin/llama-cli -m ./models/MiniCPM-o-3B-Q4_K_M.gguf \
    -p "你好，请用中文回答：什么是人工智能？" \
    -n 512 --temp 0.7

iPhone / iOS 平台安装 MiniCPM

iPhone 用户可以通过第三方 GGUF 推理 App 来运行 MiniCPM。由于 MiniCPM 也提供 GGUF 格式的量化模型，与 iOS 上的主流推理框架完全兼容。

方式一：Pocketpal AI 安装 MiniCPM

1App Store 安装 Pocketpal AI（免费）
2打开后点击"添加模型" → 搜索"MiniCPM"
3选择 openbmb/MiniCPM-o-3B-GGUF → 下载 Q4_K_M 版本（约 2GB）
4下载完成后点击模型 → 开始对话，iPhone 14 Pro 以上机型推理速度约 25 tokens/秒

方式二：LLM Farm（轻量 iOS App）

1App Store 安装 LLM Farm（开源，体积极小）
2在"导入模型"中选择"从 URL 下载"，填入 HuggingFace 上 MiniCPM GGUF 的直链
3LLM Farm 界面简洁，支持多个模型切换，中文显示也很完善

Windows 平台安装 MiniCPM

方法一：Ollama（推荐）

# 安装 Ollama 后运行：

# 安装 MiniCPM（通过 Ollama 注册库）
ollama pull minicpm-v  # MiniCPM-V 多模态版本（3B）

# 也可从 HuggingFace 下载 GGUF 文件后用 Ollama 导入
# 1. 下载：https://huggingface.co/openbmb/MiniCPM-o-3B-GGUF
# 2. 创建 Modelfile：
cat > Modelfile << 'EOF'
FROM ./MiniCPM-o-3B-Q4_K_M.gguf
TEMPLATE """<|im_start|>user
{{ .Prompt }}<|im_end|>
<|im_start|>assistant
"""
EOF

# 3. 创建模型
ollama create minicpm-custom -f Modelfile

# 4. 运行
ollama run minicpm-custom

方法二：llama.cpp 原生运行（速度更快）

1访问 github.com/ggerganov/llama.cpp/releases，下载预编译的 Windows 版本（llama-xxx-bin-win-cuda.zip）
2解压后，从 HuggingFace 下载 MiniCPM-o-3B-Q4_K_M.gguf 文件（开启 VPN07 下载）
3在命令行运行：llama-cli.exe -m MiniCPM-o-3B-Q4_K_M.gguf -p "你好" -n 500 --color
4如果有 NVIDIA 显卡，添加 -ngl 35 参数启用 GPU 加速，速度提升 3-5 倍

macOS 平台安装 MiniCPM

# 方法一：Ollama（最简单）
brew install ollama
brew services start ollama
ollama pull minicpm-v
ollama run minicpm-v

# 方法二：MLX 框架（Apple Silicon 原生优化）
pip install mlx-lm

# 下载并运行 MiniCPM MLX 格式（面壁智能有提供 mlx 格式）
python -m mlx_lm.generate \
    --model mlx-community/MiniCPM-o-3B-4bit \
    --prompt "用中文写一首关于秋天的五言绝句"

# 方法三：直接使用 Python transformers
pip install transformers torch pillow

from transformers import AutoModel, AutoTokenizer
import torch

# 加载模型（首次运行会自动从 HuggingFace 下载，需要 VPN07）
model = AutoModel.from_pretrained(
    'openbmb/MiniCPM-o-3.0',
    trust_remote_code=True,
    torch_dtype=torch.bfloat16,
    device_map='mps'  # Apple Silicon GPU 加速
)
tokenizer = AutoTokenizer.from_pretrained(
    'openbmb/MiniCPM-o-3.0',
    trust_remote_code=True
)

response = model.chat(
    tokenizer=tokenizer,
    query="请用中文介绍一下 MiniCPM 模型的特点",
    max_new_tokens=512
)
print(response)

Linux 平台安装 MiniCPM

# Ollama 方案（推荐）
curl -fsSL https://ollama.com/install.sh | sh
sudo systemctl enable --now ollama
ollama pull minicpm-v
ollama run minicpm-v

# vLLM 方案（高并发 API 服务）
pip install vllm

python -m vllm.entrypoints.openai.api_server \
    --model openbmb/MiniCPM-o-3.0 \
    --trust-remote-code \
    --max-model-len 4096 \
    --port 8000

# Python API 调用示例
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openbmb/MiniCPM-o-3.0",
    "messages": [
      {"role": "user", "content": "什么是大语言模型？"}
    ]
  }'

MiniCPM 独特功能亮点

🎙️ 实时语音对话（MiniCPM-o 3.0独有）

MiniCPM-o 3.0 支持端到端语音对话，无需先将语音转文字，直接理解语音并用语音回复。在安卓 App 中打开麦克风即可体验，延迟极低，就像真人对话。

📷 图片与视频理解

MiniCPM-V 版本支持图片识别、文档解析（OCR）、图表理解等视觉任务。在安卓 App 中可直接调用摄像头，实时分析现实世界中的场景。

🇨🇳 超强中文能力

作为清华大学出品的国产模型，MiniCPM 的中文能力在同等规模中首屈一指。特别擅长古文理解、成语运用、中文写作润色等中文特色任务。

🔋 超低功耗运行

MiniCPM 1B 版本在安卓手机上运行时，功耗仅约 3-5W，一块5000mAh电池可以连续对话 2-3 小时，是长期使用的理想选择。

MiniCPM 手机端实测体验报告

为了帮助大家了解 MiniCPM 在真实手机上的表现，我们在多款主流安卓手机上进行了实测，以下是详细数据：

小米14 Ultra tokens/秒

OnePlus 13 tokens/秒

小米12 tokens/秒

天玑 9000 tokens/秒

📱 实测体验总结

在骁龙 8 Gen 3 手机上运行 MiniCPM-o 3B Q4 量化版，回答一个中等长度的问题（约100字回复）大约需要 4-5 秒，完全可以接受。回答中文诗词、写作润色、代码解释等任务时质量相当不错。

使用 MiniCPM-o 的语音对话功能时，延迟约 1-2 秒，口音识别准确率超过 95%，整体体验超出预期。

MiniCPM 多设备协同：手机 + 电脑联动方案

你可以把家里的电脑（或 NAS）上部署的 MiniCPM 作为服务端，手机通过局域网连接访问，这样手机端可以享受更强大的计算力，无需本地运行模型。

# 电脑端（局域网 AI 服务器）
# 假设电脑 IP 是 192.168.1.100

# 启动 Ollama 并允许局域网访问
OLLAMA_HOST=0.0.0.0:11434 ollama serve
ollama pull minicpm-v

# 手机端（浏览器访问）
# 在手机浏览器访问：http://192.168.1.100:11434
# 或者安装 Open WebUI Docker：
# docker run -d -p 3000:8080 \
#   --add-host=host.docker.internal:host-gateway \
#   -e WEBUI_AUTH=False \
#   ghcr.io/open-webui/open-webui:main
# 手机浏览器访问：http://192.168.1.100:3000
# 即可在手机上享受电脑级别的 MiniCPM 推理速度

配合 VPN07 高速下载 MiniCPM 模型

MiniCPM 的模型文件主要托管在 HuggingFace（huggingface.co）和 ModelScope（modelscope.cn）两个平台。HuggingFace 在国内访问速度较慢，推荐配合 VPN07 使用。以下是具体配置步骤：

通过 VPN07 + huggingface-cli 高速下载

1打开 VPN07，连接美国或日本节点（HuggingFace 服务器主要在美国）
2安装 huggingface-cli：pip install huggingface_hub
3运行下载命令：huggingface-cli download openbmb/MiniCPM-o-3B-GGUF --local-dir ./minicpm
4VPN07 的1000Mbps带宽下，约 2GB 的 MiniCPM GGUF 文件仅需 20-30 秒即可完成下载

💡 如果不想用 VPN，还有 ModelScope 国内镜像

MiniCPM 在 ModelScope 上也有完整的镜像，访问地址：modelscope.cn/models/OpenBMB/MiniCPM-o-3.0。ModelScope 是阿里达摩院运营的国内 AI 模型平台，无需 VPN 即可访问，下载速度也很快。不过 VPN07 依然可以让你同时访问 HuggingFace 上的最新版本，确保不错过更新。

常见问题解答

Q：MiniCPM 和 DeepSeek R1 有什么区别？

A：DeepSeek R1 最小版本也需要 7B 参数，主要针对推理密集型任务（数学、代码）；MiniCPM 的 1B-3B 版本参数更小，更适合在手机上运行日常对话任务，而且 MiniCPM-o 还支持多模态（语音、图片、视频）。两者定位不同，互补关系。

Q：下载 MiniCPM 需要访问哪些网站？

A：官方模型文件托管在 HuggingFace（huggingface.co）和 ModelScope（modelscope.cn）。HuggingFace 在中国大陆访问不稳定，建议使用 VPN07 下载；ModelScope 是国内镜像，不需要 VPN 也能访问，但部分模型版本可能稍有滞后。

Q：MiniCPM 手机 App 需要 root 权限吗？

A：不需要 root。官方 Android APK 在普通安卓系统上就能安装运行，只需要允许安装未知来源的 App 即可。目前支持 Android 9.0 及以上版本，最低需要 6GB 可用内存。

还想体验更多开源大模型？

MiniCPM / DeepSeek / Llama 4 / Gemma 一站下载

查看全部模型 →

下载 MiniCPM 模型，VPN07 帮你提速

1000Mbps 千兆速度，从 HuggingFace 下载 2GB 模型只需 20 秒

¥9/月

超低月费

1000Mbps

千兆带宽

70+国家

全球节点

30天

无条件退款

免费试用VPN07 查看价格方案

MiniCPM 安装教程：手机运行AI大模型全平台详细指南