VPN07

MiniCPM 安装教程:手机运行AI大模型全平台详细指南

2026-03-05 阅读约18分钟 AI安装教程 MiniCPM 手机AI
开源大语言模型下载中心
MiniCPM / DeepSeek / Llama 4 / Gemma 一站下载
立即下载模型 →

教程说明:MiniCPM 是清华大学与面壁智能(ModelBest)联合研发的轻量级大模型,专为手机和低功耗设备优化。MiniCPM-o(全模态版本)支持文字、图片、语音、视频的理解与生成,仅需 3B 参数就能在手机上流畅运行。本文详细介绍如何在安卓手机、iPhone、Windows、macOS 和 Linux 上安装 MiniCPM,让每部手机都能拥有一个高质量的本地 AI 助手。

MiniCPM 是什么?为什么适合手机运行

MiniCPM 最大的特点是在极小的参数规模(1B-8B)下实现了超越预期的性能表现。面壁智能在训练 MiniCPM 时采用了独特的"模型风洞"理论,通过大量小实验来找到最优的训练配方,从而让参数效率最大化。最新的 MiniCPM-o 3.0 版本(8B 参数)是目前手机端性能最强的全模态模型,支持实时语音对话、图像理解和视频分析。

对于中国用户来说,MiniCPM 有一个特别的优势:它是纯正的中文研究团队出品,对中文的理解和生成能力在同等规模中表现卓越,特别擅长中文写作、古诗词解析、中文代码注释等本土化任务。

1B
超轻量,低配手机
3B
旗舰手机推荐
4B
多模态全能版
8B
旗舰全模态版

安卓手机安装 MiniCPM(最推荐方式)

MiniCPM 最亮眼的特性就是可以在安卓手机上本地运行。面壁智能专门发布了 MiniCPM 安卓 App,无需 root、无需命令行,普通用户也能一键体验手机端 AI 大模型。

方式一:MiniCPM 官方安卓 App(最简单)

  1. 1访问面壁智能官网(modelbest.cn)或 GitHub 页面(github.com/OpenBMB/MiniCPM)
  2. 2在 Release 页面下载最新版 MiniCPM-o-App.apk(约 80MB)
  3. 3安装 APK,允许"安装未知来源应用"权限
  4. 4打开 App,首次运行会下载模型文件(约 2-3GB),建议连接 WiFi
  5. 5下载完成后即可离线使用,支持文字对话、图片分析、语音输入(8B 版本)
骁龙 870+
MiniCPM 1B 流畅
骁龙 8 Gen 2
MiniCPM 3B 推荐
骁龙 8 Gen 3
8B 全模态版本

方式二:Termux + llama.cpp(进阶,支持任意安卓设备)

# 从 F-Droid 安装 Termux # 在 Termux 中运行: pkg update && pkg install cmake git python # 编译 llama.cpp(ARM64 原生性能) git clone https://github.com/ggerganov/llama.cpp cd llama.cpp cmake -B build -DLLAMA_NATIVE=ON cmake --build build --config Release -j4 # 下载 MiniCPM GGUF 格式模型(约 2GB) # 建议开启 VPN07 从 HuggingFace 下载 pip install huggingface-hub python -c " from huggingface_hub import hf_hub_download hf_hub_download( repo_id='openbmb/MiniCPM-o-3B-GGUF', filename='MiniCPM-o-3B-Q4_K_M.gguf', local_dir='./models/' )" # 运行推理 ./build/bin/llama-cli -m ./models/MiniCPM-o-3B-Q4_K_M.gguf \ -p "你好,请用中文回答:什么是人工智能?" \ -n 512 --temp 0.7

iPhone / iOS 平台安装 MiniCPM

iPhone 用户可以通过第三方 GGUF 推理 App 来运行 MiniCPM。由于 MiniCPM 也提供 GGUF 格式的量化模型,与 iOS 上的主流推理框架完全兼容。

方式一:Pocketpal AI 安装 MiniCPM

  1. 1App Store 安装 Pocketpal AI(免费)
  2. 2打开后点击"添加模型" → 搜索"MiniCPM"
  3. 3选择 openbmb/MiniCPM-o-3B-GGUF → 下载 Q4_K_M 版本(约 2GB)
  4. 4下载完成后点击模型 → 开始对话,iPhone 14 Pro 以上机型推理速度约 25 tokens/秒

方式二:LLM Farm(轻量 iOS App)

  1. 1App Store 安装 LLM Farm(开源,体积极小)
  2. 2在"导入模型"中选择"从 URL 下载",填入 HuggingFace 上 MiniCPM GGUF 的直链
  3. 3LLM Farm 界面简洁,支持多个模型切换,中文显示也很完善

Windows 平台安装 MiniCPM

方法一:Ollama(推荐)

# 安装 Ollama 后运行: # 安装 MiniCPM(通过 Ollama 注册库) ollama pull minicpm-v # MiniCPM-V 多模态版本(3B) # 也可从 HuggingFace 下载 GGUF 文件后用 Ollama 导入 # 1. 下载:https://huggingface.co/openbmb/MiniCPM-o-3B-GGUF # 2. 创建 Modelfile: cat > Modelfile << 'EOF' FROM ./MiniCPM-o-3B-Q4_K_M.gguf TEMPLATE """<|im_start|>user {{ .Prompt }}<|im_end|> <|im_start|>assistant """ EOF # 3. 创建模型 ollama create minicpm-custom -f Modelfile # 4. 运行 ollama run minicpm-custom

方法二:llama.cpp 原生运行(速度更快)

  1. 1访问 github.com/ggerganov/llama.cpp/releases,下载预编译的 Windows 版本(llama-xxx-bin-win-cuda.zip)
  2. 2解压后,从 HuggingFace 下载 MiniCPM-o-3B-Q4_K_M.gguf 文件(开启 VPN07 下载)
  3. 3在命令行运行:llama-cli.exe -m MiniCPM-o-3B-Q4_K_M.gguf -p "你好" -n 500 --color
  4. 4如果有 NVIDIA 显卡,添加 -ngl 35 参数启用 GPU 加速,速度提升 3-5 倍

macOS 平台安装 MiniCPM

# 方法一:Ollama(最简单) brew install ollama brew services start ollama ollama pull minicpm-v ollama run minicpm-v # 方法二:MLX 框架(Apple Silicon 原生优化) pip install mlx-lm # 下载并运行 MiniCPM MLX 格式(面壁智能有提供 mlx 格式) python -m mlx_lm.generate \ --model mlx-community/MiniCPM-o-3B-4bit \ --prompt "用中文写一首关于秋天的五言绝句" # 方法三:直接使用 Python transformers pip install transformers torch pillow from transformers import AutoModel, AutoTokenizer import torch # 加载模型(首次运行会自动从 HuggingFace 下载,需要 VPN07) model = AutoModel.from_pretrained( 'openbmb/MiniCPM-o-3.0', trust_remote_code=True, torch_dtype=torch.bfloat16, device_map='mps' # Apple Silicon GPU 加速 ) tokenizer = AutoTokenizer.from_pretrained( 'openbmb/MiniCPM-o-3.0', trust_remote_code=True ) response = model.chat( tokenizer=tokenizer, query="请用中文介绍一下 MiniCPM 模型的特点", max_new_tokens=512 ) print(response)

Linux 平台安装 MiniCPM

# Ollama 方案(推荐) curl -fsSL https://ollama.com/install.sh | sh sudo systemctl enable --now ollama ollama pull minicpm-v ollama run minicpm-v # vLLM 方案(高并发 API 服务) pip install vllm python -m vllm.entrypoints.openai.api_server \ --model openbmb/MiniCPM-o-3.0 \ --trust-remote-code \ --max-model-len 4096 \ --port 8000 # Python API 调用示例 curl http://localhost:8000/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "openbmb/MiniCPM-o-3.0", "messages": [ {"role": "user", "content": "什么是大语言模型?"} ] }'

MiniCPM 独特功能亮点

🎙️ 实时语音对话(MiniCPM-o 3.0独有)

MiniCPM-o 3.0 支持端到端语音对话,无需先将语音转文字,直接理解语音并用语音回复。在安卓 App 中打开麦克风即可体验,延迟极低,就像真人对话。

📷 图片与视频理解

MiniCPM-V 版本支持图片识别、文档解析(OCR)、图表理解等视觉任务。在安卓 App 中可直接调用摄像头,实时分析现实世界中的场景。

🇨🇳 超强中文能力

作为清华大学出品的国产模型,MiniCPM 的中文能力在同等规模中首屈一指。特别擅长古文理解、成语运用、中文写作润色等中文特色任务。

🔋 超低功耗运行

MiniCPM 1B 版本在安卓手机上运行时,功耗仅约 3-5W,一块5000mAh电池可以连续对话 2-3 小时,是长期使用的理想选择。

MiniCPM 手机端实测体验报告

为了帮助大家了解 MiniCPM 在真实手机上的表现,我们在多款主流安卓手机上进行了实测,以下是详细数据:

28
小米14 Ultra tokens/秒
22
OnePlus 13 tokens/秒
15
小米12 tokens/秒
8
天玑 9000 tokens/秒

📱 实测体验总结

在骁龙 8 Gen 3 手机上运行 MiniCPM-o 3B Q4 量化版,回答一个中等长度的问题(约100字回复)大约需要 4-5 秒,完全可以接受。回答中文诗词、写作润色、代码解释等任务时质量相当不错。

使用 MiniCPM-o 的语音对话功能时,延迟约 1-2 秒,口音识别准确率超过 95%,整体体验超出预期。

MiniCPM 多设备协同:手机 + 电脑联动方案

你可以把家里的电脑(或 NAS)上部署的 MiniCPM 作为服务端,手机通过局域网连接访问,这样手机端可以享受更强大的计算力,无需本地运行模型。

# 电脑端(局域网 AI 服务器) # 假设电脑 IP 是 192.168.1.100 # 启动 Ollama 并允许局域网访问 OLLAMA_HOST=0.0.0.0:11434 ollama serve ollama pull minicpm-v # 手机端(浏览器访问) # 在手机浏览器访问:http://192.168.1.100:11434 # 或者安装 Open WebUI Docker: # docker run -d -p 3000:8080 \ # --add-host=host.docker.internal:host-gateway \ # -e WEBUI_AUTH=False \ # ghcr.io/open-webui/open-webui:main # 手机浏览器访问:http://192.168.1.100:3000 # 即可在手机上享受电脑级别的 MiniCPM 推理速度

配合 VPN07 高速下载 MiniCPM 模型

MiniCPM 的模型文件主要托管在 HuggingFace(huggingface.co)和 ModelScope(modelscope.cn)两个平台。HuggingFace 在国内访问速度较慢,推荐配合 VPN07 使用。以下是具体配置步骤:

通过 VPN07 + huggingface-cli 高速下载

  1. 1打开 VPN07,连接美国或日本节点(HuggingFace 服务器主要在美国)
  2. 2安装 huggingface-cli:pip install huggingface_hub
  3. 3运行下载命令:huggingface-cli download openbmb/MiniCPM-o-3B-GGUF --local-dir ./minicpm
  4. 4VPN07 的1000Mbps带宽下,约 2GB 的 MiniCPM GGUF 文件仅需 20-30 秒即可完成下载

💡 如果不想用 VPN,还有 ModelScope 国内镜像

MiniCPM 在 ModelScope 上也有完整的镜像,访问地址:modelscope.cn/models/OpenBMB/MiniCPM-o-3.0。ModelScope 是阿里达摩院运营的国内 AI 模型平台,无需 VPN 即可访问,下载速度也很快。不过 VPN07 依然可以让你同时访问 HuggingFace 上的最新版本,确保不错过更新。

常见问题解答

Q:MiniCPM 和 DeepSeek R1 有什么区别?

A:DeepSeek R1 最小版本也需要 7B 参数,主要针对推理密集型任务(数学、代码);MiniCPM 的 1B-3B 版本参数更小,更适合在手机上运行日常对话任务,而且 MiniCPM-o 还支持多模态(语音、图片、视频)。两者定位不同,互补关系。

Q:下载 MiniCPM 需要访问哪些网站?

A:官方模型文件托管在 HuggingFace(huggingface.co)和 ModelScope(modelscope.cn)。HuggingFace 在中国大陆访问不稳定,建议使用 VPN07 下载;ModelScope 是国内镜像,不需要 VPN 也能访问,但部分模型版本可能稍有滞后。

Q:MiniCPM 手机 App 需要 root 权限吗?

A:不需要 root。官方 Android APK 在普通安卓系统上就能安装运行,只需要允许安装未知来源的 App 即可。目前支持 Android 9.0 及以上版本,最低需要 6GB 可用内存。

还想体验更多开源大模型?
MiniCPM / DeepSeek / Llama 4 / Gemma 一站下载
查看全部模型 →

下载 MiniCPM 模型,VPN07 帮你提速

1000Mbps 千兆速度,从 HuggingFace 下载 2GB 模型只需 20 秒

¥9/月
超低月费
1000Mbps
千兆带宽
70+国家
全球节点
30天
无条件退款

相关文章推荐

月费¥9 · 运营十年
免费试用 VPN07