小米MiMo-V2-Flash：每秒150 token，性能比肩DeepSeek

摘要：2025年12月16日，小米正式發布MiMo-V2-Flash大模型，總參數309B，活躍參數15B，採用混合注意力機制，在通用基準測試中性能與DeepSeek-V3.2不相上下，推理速度高達每秒150 token，標誌著小米在AI領域取得重大突破。

MiMo-V2-Flash 是什麼？

MiMo-V2-Flash是小米最新發布的大型語言模型，屬於MiMo系列的最新版本。該模型採用先進的混合專家（MoE）架構，總參數規模達到309B（3090億），但在實際推理時僅啟用15B（150億）活躍參數，大幅提升了運算效率。

總參數

309B（3090億）

活躍參數

15B（150億）

推理速度

150 token/秒

訓練長度

原生32K

最大上下文

可擴展至256K

架構設計

混合注意力機制

創新技術架構

混合注意力機制（Hybrid Attention）

包含8個混合塊，每5個滑動窗口注意力（SWA）層對應1個全局注意力層

有效平衡局部資訊捕捉和全局上下文理解

大幅提升長文本處理能力

混合專家架構（MoE）

總參數309B，但推理時僅啟用15B活躍參數

兼顧模型能力和運算效率

降低部署成本，提升推理速度

超長上下文支援

原生支援32K token訓練長度

可擴展至256K token超長上下文

適合處理長文檔、代碼庫分析等場景

性能表現：與DeepSeek-V3.2不相上下

通用基準測試

在MMLU、C-Eval、HumanEval等主流測試中，MiMo-V2-Flash與DeepSeek-V3.2性能相當，部分指標甚至略有優勢

推理速度優勢

推理速度達到每秒150 token，在同級別模型中處於領先地位，實際使用體驗流暢

中文能力突出

針對中文場景深度優化，在中文理解、生成、推理任務上表現優異

多模態支援

支援文本、圖像等多模態輸入，應用場景更加豐富

性能亮點

MiMo-V2-Flash在保持與DeepSeek-V3.2相當性能的同時，推理速度更快，部署成本更低，特別適合企業級應用場景。小米表示該模型將向開發者開放API接口，推動AI技術普及。

應用場景

智能設備集成

集成到小米手機、智能家居設備，提供本地化AI助手服務

程式設計輔助

代碼生成、除錯、重構等開發場景支援

文檔處理

長文檔閱讀、摘要生成、內容分析

智能客服

企業客服系統、售後支援自動化

如何使用 MiMo-V2-Flash

註冊小米AI平臺

訪問小米AI開放平臺，使用小米帳號登入

申請API密鑰

在控制台創建應用並獲取API密鑰

選擇MiMo-V2-Flash模型

在模型列表中選擇MiMo-V2-Flash

開始使用

調用API或使用在線體驗平臺

存取提示

小米AI服務在中國大陸可直接存取。海外用戶如需使用，建議使用穩定的網路連接服務確保API調用穩定性。

總結

MiMo-V2-Flash是小米在AI領域的重要突破，性能與DeepSeek-V3.2相當

採用混合注意力機制和MoE架構，兼顧性能與效率

推理速度每秒150 token，支援最大256K上下文

中文能力突出，適合中文場景應用

開放API接口，推動AI技術普及和應用落地