Qwen3.5-122B-A10B部署教程：普通电脑也能跑千亿AI完整指南

重磅发布：2026年2月24日，阿里千问团队发布了 Qwen3.5-122B-A10B，这是目前最强的可以在消费级硬件上运行的开源 MoE 模型之一。其命名含义：总参数 122B，但每次推理只激活 10B 参数。这使得它拥有 122B 级别的智能深度，却只需要 10B 级别的计算资源，是 2026 年本地 AI 部署领域的里程碑事件。本文提供从选购硬件到运行调优的完整部署指南。

为什么说 122B-A10B 是"消费级千亿AI"的里程碑

122B

总参数量

旗舰级智能

10B

激活参数量

低算力需求

24GB

最低显存需求

RTX 4090可运行

上下文窗口

百万token记忆

在此之前，想要在本地运行真正的"百亿参数以上"模型，需要至少 2-4 张 A100（单价 8-12 万元）或昂贵的 H100 集群。而 Qwen3.5-122B-A10B 借助 MoE 架构，使得一张消费级 RTX 4090（约 8000 元）就能运行真正的千亿级别 AI。这是人工智能民主化进程中的一个重要节点。

技术架构详解：122B 如何只用 10B 的算力

Qwen3.5-122B-A10B 采用了阿里团队自研的 Gated DeltaNet + MoE 混合架构，这是对传统 MoE 设计的重大改进：

🔀 稀疏专家路由（Sparse Expert Routing）

模型将 122B 参数分布在多个"专家"模块中，每次处理一个 token 时，路由层通过软件算法动态选择最适合该 token 的 8-12 个专家参与计算，其他专家保持静默。最终效果是：虽然模型"知识量"达到 122B 的深度，但每步计算量仅相当于 10B 规模。

⚡ Gated DeltaNet 改进

与传统 Transformer 相比，Gated DeltaNet 在处理超长上下文时具有线性时间复杂度（而非 Transformer 的二次方），这使得 122B-A10B 能在普通硬件上高效处理百万 token 的上下文。

🌐 201语言原生多模态训练

122B-A10B 在 201 种语言和多模态数据（文字、图像、视频）上进行了联合训练，对中文的理解深度与原生中文模型相当，同时具备图像理解和代码执行能力。

硬件要求与配置方案

根据量化精度和使用场景不同，运行 Qwen3.5-122B-A10B 有以下几种硬件配置方案：

方案A - 单卡旗舰 RTX 4090 × 1（24GB）

• 量化版本：Q2_K 或 Q3_K_M（约 20-24GB）
• 推理速度：约 25-35 tok/s
• 上下文：32K-64K tokens

• 适合场景：个人开发者、AI 研究者
• 预估成本：约 8,000-9,000 元（RTX 4090）
• ✅ 推荐新手起步配置

方案B - 双卡专业 RTX 4090 × 2 或 RTX 4080 Super × 2

• 量化版本：Q4_K_M（约 44GB 显存）
• 推理速度：约 45-60 tok/s
• 上下文：128K-256K tokens

• 适合场景：企业内部 AI 服务
• 预估成本：约 1.6-2 万元
• ⭐ 质量与成本最佳平衡

方案C - 企业级 A100/H100 × 1-2 或 RTX 4090 × 4

• 量化版本：Q6_K 或 FP16（约 80-244GB）
• 推理速度：60-100+ tok/s
• 上下文：完整 1M tokens

• 适合场景：企业生产环境、多用户并发
• 预估成本：5-50 万元
• 💼 企业 ROI 最高选项

📦 122B-A10B 各量化版本文件大小参考

Q2_K

约 22GB

Q3_K_M

约 32GB

Q4_K_M ⭐

约 43GB

FP16（原始）

约 244GB

三种部署方案详细教程

方案一：Ollama（新手最简单）

# 前提：已安装 Ollama（https://ollama.com）
# 显卡：RTX 4090 (24GB VRAM)

# 拉取 Qwen3.5-122B（Ollama 自动选择合适量化版本）
ollama pull qwen3.5:122b

# 或明确指定低精度量化版本（适合 24GB 显存）
ollama pull qwen3.5:122b-instruct-q2_K

# 运行（Ollama 会自动分配显存）
ollama run qwen3.5:122b

# 测试推理：输入以下问题验证模型是否正常工作
# > 请用中文解释量子力学的基本原理，并举一个日常生活中的类比
# > 帮我用 Python 实现一个支持并发的异步 HTTP 客户端

# 查看模型加载状态
ollama ps

# 监控推理速度（需要 GPU 监控工具）
# Linux/Mac:
watch -n 1 nvidia-smi
# Windows: 任务管理器 → 性能 → GPU

注意：Ollama 运行 122B 模型时，首次 pull 下载约需 22-44GB（取决于量化版本），从 Hugging Face 下载。建议开启 VPN07（1000Mbps 千兆带宽）后操作，44GB 文件约需 6-8 分钟，而非数小时。

方案二：vLLM 高性能推理服务（生产环境推荐）

# 系统要求：CUDA 12.1+，Python 3.10+
# 显卡：双 RTX 4090 或 A100 × 1 以上

# 安装 vLLM（支持 AWQ 量化以节省显存）
pip install vllm autoawq

# 下载 AWQ 量化版模型（约 43GB，需要开启 VPN07）
# 方法1：通过 huggingface-cli
pip install huggingface_hub
huggingface-cli download \
    Qwen/Qwen3.5-122B-A10B-Instruct-AWQ \
    --local-dir ./models/qwen35-122b

# 方法2：使用 ModelScope 国内镜像（无需 VPN）
pip install modelscope
modelscope download \
    --model Qwen/Qwen3.5-122B-A10B-Instruct-AWQ \
    --local_dir ./models/qwen35-122b

# 启动 vLLM 推理服务（双 GPU 张量并行）
vllm serve ./models/qwen35-122b \
    --tensor-parallel-size 2 \
    --quantization awq \
    --gpu-memory-utilization 0.95 \
    --max-model-len 65536 \
    --max-num-seqs 32 \
    --port 8000 \
    --host 0.0.0.0

# 测试 API（OpenAI 兼容格式）
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen35-122b",
    "messages": [
        {"role": "system", "content": "你是一个专业的AI助手"},
        {"role": "user", "content": "分析以下商业计划书的优缺点：..."}
    ],
    "temperature": 0.7,
    "max_tokens": 4096
  }'

方案三：LM Studio 图形界面（零命令行）

1访问 lmstudio.ai 下载最新版 LM Studio（支持 Windows/Mac/Linux）
2打开 LM Studio，在搜索框输入「Qwen3.5-122B」
3根据你的显存选择对应量化版本（24GB 显存选 Q2_K，48GB 选 Q3_K_M）
4点击下载（⚠️ 建议先开启 VPN07 再下载，否则可能数小时无法完成）
5下载完成后，在 Chat 界面选择模型加载，等待约 30-60 秒初始化即可使用
6可选：启用 Local Inference Server，供 Cursor、VSCode AI 插件等工具调用

性能优化：让 122B 跑出最快速度

通过以下配置调整，可以在相同硬件上提升 20-40% 的推理速度：

# === Windows 系统优化 ===

# 1. 设置 Ollama 高性能环境变量（在系统环境变量中设置）
OLLAMA_GPU_MEMORY_FRACTION=0.95   # 使用 95% 显存（默认 80%）
OLLAMA_NUM_PARALLEL=2              # 并发请求数
OLLAMA_FLASH_ATTENTION=1           # 开启 Flash Attention 加速

# 2. 固定 CPU 性能模式（避免自动降频）
# 控制面板 → 电源选项 → 高性能

# 3. 禁用 Windows 虚拟内存（GPU 显存充足时）
# 系统设置 → 高级系统设置 → 性能选项 → 虚拟内存 → 设置

# === Linux 系统优化 ===

# 设置 GPU 持久模式（避免冷启动延迟）
sudo nvidia-smi -pm 1

# 设置 GPU 计算模式
sudo nvidia-smi --compute-mode=EXCLUSIVE_PROCESS

# 监控实时 GPU 使用率和温度
watch -n 0.5 'nvidia-smi --query-gpu=utilization.gpu,temperature.gpu,memory.used,memory.total --format=csv'

# === vLLM 配置优化 ===

# 针对长文本的推荐参数（64K-128K上下文）
vllm serve ./models/qwen35-122b \
    --tensor-parallel-size 2 \
    --quantization awq \
    --enable-prefix-caching \          # 启用前缀缓存（长对话加速）
    --enable-chunked-prefill \         # 分块预填充（降低首Token延迟）
    --max-num-batched-tokens 65536 \   # 批处理Token上限
    --gpu-memory-utilization 0.90

122B-A10B 最适合哪些使用场景？

🏆 最佳适用场景

企业内部知识库 RAG（超长文档理解）
代码审查与重构（理解整个项目架构）
法律/合同文件分析（长上下文超强）
多语言客服机器人（201语言原生支持）
科研论文摘要与综述自动生成
金融报告分析（数据安全，本地运行）

⚠️ 建议改用 27B 的场景

简单日常聊天（27B 已足够）
实时交互应用（27B 速度更快）
手机/平板端运行（应选小模型）
服务器 RAM 少于 32GB

122B-A10B vs 397B-A17B：该选哪个？

对比维度	122B-A10B	397B-A17B
最低显存需求	24GB（Q2）	80GB+（Q2）
消费级单卡可运行	✅ RTX 4090	❌ 需多卡
推理质量	优秀（↑比 GPT-4o）	最强（↑比 Claude Opus）
推理速度（相同硬件）	较快	较慢
本地部署成本	约 0.8-2 万元	约 5-20 万元
适合人群	个人/中小企业	大企业/科研机构

💡 最终建议

对于大多数个人开发者和中小企业，122B-A10B 是最具性价比的旗舰选择。它的性能已经超越 GPT-4o，同时硬件门槛只有 397B-A17B 的 1/5 到 1/10。在预算充足之前，122B-A10B 可以满足 95% 以上的企业 AI 需求。

常见问题解答

Q：CPU（无显卡）能跑 122B 吗？

A：理论上 Ollama 和 LM Studio 支持纯 CPU 推理。但 122B 的 Q2_K 版本（约 22GB）需要至少 32GB 系统 RAM，推理速度极慢（约 0.5-2 tokens/秒），实际使用体验极差。强烈建议至少有 RTX 4080/4090 显卡。

Q：下载 44GB 的文件需要多久？

A：取决于网速。不开 VPN 从 Hugging Face 下载，国内速度通常 0.5-2Mbps，44GB 需要 50-200+ 小时。开启 VPN07（1000Mbps 千兆带宽）后，下载速度可达 80-120MB/s，44GB 约 6-8 分钟下完。ModelScope 国内镜像通常在 30-80Mbps 左右，需要 1-2 小时。

Q：运行 122B 对散热要求高吗？

A：是的。RTX 4090 满载时功耗约 450W，持续高强度推理会导致 GPU 温度达到 70-85°C。建议：①确保机箱有良好的正压进风设计；②可以适当降低 Power Limit（如限制到 300W）换取更低温度，虽然速度略有下降但更稳定。

Q：Mac M3 Ultra 能跑 122B 吗？

A：Mac M3 Ultra 最高配置有 192GB 统一内存，完全可以运行 122B-A10B 的 Q4 量化版本。Ollama 对 Apple Silicon 有专门的 Metal GPU 优化，推理速度预计在 20-35 tokens/秒，是目前消费级设备中最舒适的 122B 运行方案之一。

VPN07 — 下载 44GB 大模型的最快解决方案

1000Mbps千兆带宽 · 70+国家节点 · 十年稳定运营

部署 Qwen3.5-122B-A10B 的最大障碍不是硬件，而是下载 22-44GB 的模型文件。VPN07 是业内知名的国际加速服务，真正的 1000Mbps 千兆带宽让 44GB 文件在 6-8 分钟内下完，不限速、不掉线。十年稳定运营，覆盖全球 70+ 国家节点，月费仅 ¥9，享受 30 天无理由退款保障。

¥9/月

超低月费

1000Mbps

千兆带宽

70+国家

全球节点

30天

无理由退款

免费试用VPN07 查看价格方案

2026年Qwen3.5-122B-A10B旗舰MoE完整部署教程：普通电脑也能跑千亿参数AI