Phi-4-reasoning-visionインストールガイド【Windows/Mac/スマホ全対応】

オープンソース大規模言語モデルダウンロードセンター

Phi-4 / DeepSeek / Kimi K2.5 / Llama 4 一覧はこちら

モデルを見る →

この記事について：Microsoftが2026年3月4日に公開したPhi-4-reasoning-visionは、15Bパラメータのマルチモーダル推論特化モデルです。テキストだけでなく画像・図形・数式を組み合わせた推論に対応しており、数学・科学的推論・UI解析でGoogleのGemma 3-12Bより17%高いスコアを達成しました。Mid-fusion（中間融合）アーキテクチャを採用し、画像とテキストを組み合わせた複雑なタスクを一度に処理できます。MIT/ccby-4ライセンスで公開されており、商用・個人利用ともに完全無料です。本記事では全プラットフォームへのインストール手順を解説します。

Phi-4-reasoning-visionとは？Phi-4との違いと主な特徴

Phi-4-reasoning-visionは、従来のPhi-4（テキスト専用）から進化し、視覚理解と深い推論能力を統合したMicrosoftの最新オープンソースモデルです。特筆すべきは「Mid-fusion」アーキテクチャ：画像特徴量をTransformerの中間層に注入することで、テキストと画像の両方を深くインタラクティブに処理します。AIエージェントとの相性も良く、スクリーンショットを見てUIを操作したり、グラフ・チャートを解析するタスクに特に有効です。

15B

パラメータ数

+17%

Gemma3-12B比

画像+テキスト

マルチモーダル

MIT

ライセンス

Phi-4-reasoning-visionが他モデルと大きく異なる点は推論過程の可視化です。回答を出すだけでなく、問題をどのように分解・解析したかの思考プロセスを段階的に出力します。数学の証明・科学的仮説の検証・複雑なコードのデバッグなど、「なぜそうなるのか」を理解したいシーンで特に威力を発揮します。

🥇

Phi-4-reasoning-vision - 15B最強のマルチモーダル推論AI

9.1/10点（15B部門）

+17%

MathVista_Mini

Top

UI解析性能

15B

軽量ながら高性能

Mid-fusion

独自アーキテクチャ

プラットフォーム別推奨スペック一覧

Phi-4-reasoning-vision デバイス別動作環境

デバイス	VRAM/RAM	推奨設定	応答速度
RTX 4090 (24GB)	24GB VRAM	BF16 フルモデル	50+tok/s
RTX 3080/4080 (10-16GB)	10-16GB	Q4_K_M量子化	30+tok/s
MacBook Pro M3 Pro (18-36GB)	18-36GB	Q4版（MLX）	25+tok/s
一般PC (8GB RAM)	8GB RAM	Q4量子化 CPU	5-10tok/s
Android (RAM 8GB+)	8GB RAM	Termux/PocketPal	5-12tok/s
iPhone 15 Pro以降	8GB RAM	Off Grid / LLM Farm	10-15tok/s

嬉しいポイント：Phi-4-reasoning-visionは15Bと比較的軽量なため、RTX 3080（10GB VRAM）以上のミドルクラスGPUで快適に動作します。DeepSeek V3-0324のような超大型モデルと違い、一般的なゲーミングPCでも十分実用的な速度で動きます。

WindowsへのPhi-4-reasoning-visionインストール

WindowsにはOllamaを使った方法が最もシンプルです。Phi-4-reasoning-visionはOllamaライブラリで公式サポートされており、コマンド一つで起動できます。

1 Ollamaをインストール

ollama.comからWindows版インストーラーをダウンロードしてインストールします。NVIDIAのGPUが自動検出されます。

必要環境：Windows 10/11（64ビット）、NVIDIA GPU推奨（RTX 3070以上）、RAM 16GB以上、ストレージ 20GB以上

2 PowerShellでPhi-4-reasoning-visionを起動


# Phi-4-reasoning-visionをダウンロード・起動

ollama run phi4-reasoning-vision


# または段階的に

ollama pull phi4-reasoning-vision

ollama run phi4-reasoning-vision


# 画像を含むプロンプト例（APIモード）

curl http://localhost:11434/api/generate -d '{

  "model": "phi4-reasoning-vision",

  "prompt": "この画像に何が写っていますか？",

  "images": ["[base64エンコードされた画像]"]

}'

ダウンロードサイズ：約9GB（Q4量子化版）。RTX 4090では約50トークン/秒で動作します。

3 HuggingFace Transformersで直接実行（上級者向け）


# 必要パッケージをインストール

pip install transformers accelerate pillow


# Pythonスクリプトで実行

from transformers import AutoModelForCausalLM, AutoProcessor

import torch

from PIL import Image


model = AutoModelForCausalLM.from_pretrained(

    "microsoft/Phi-4-reasoning-vision",

    torch_dtype=torch.bfloat16,

    device_map="cuda"

)

processor = AutoProcessor.from_pretrained(

    "microsoft/Phi-4-reasoning-vision"

)

macOSへのインストール方法（Apple Silicon最適化）

MacのApple Siliconは統合メモリアーキテクチャにより、15Bモデルを非常に効率的に実行できます。MacBook Pro M3 Pro（18GB）でも快適に動作し、M3 Max以上では50トークン/秒以上の高速応答が期待できます。MLXフレームワークを使うとさらに高速化されます。

1 Ollamaでインストール（最速・推奨）


# Homebrewでollamaをインストール

brew install ollama

brew services start ollama


# Phi-4-reasoning-visionをダウンロード・起動

ollama run phi4-reasoning-vision


# 画像解析の例

# >>> この数式の証明を画像から読み取って説明してください。

M3 Pro / Max（18-128GB）

完全VRAM内実行。約30-50tok/s。画像解析も高速

M2 Pro / M1 Max（16-32GB）

十分実用的な速度。約15-25tok/s

2 MLXフレームワークで高速実行


# MLX-LMをインストール

pip install mlx-lm


# Phi-4-reasoning-visionをMLX量子化版で実行

mlx_lm.generate \

  --model mlx-community/Phi-4-reasoning-vision-4bit \

  --max-tokens 2000 \

  --prompt "次の数学問題を段階的に解いてください。"

Linux（Ubuntu）へのインストール

LinuxはCUDA対応NVIDIAカードとの組み合わせでPhi-4-reasoning-visionの最高性能を実現できます。vLLM・llama.cpp・Transformersのいずれかを使って簡単にセットアップできます。

Ubuntu/Debian系での完全セットアップ


# Step 1: Ollamaインストール

curl -fsSL https://ollama.com/install.sh | sh


# Step 2: Phi-4-reasoning-visionを起動

ollama run phi4-reasoning-vision


# 代替：Transformersで実行（フルコントロール）

pip install transformers accelerate pillow torch

python3 -c "

from transformers import pipeline

pipe = pipeline('image-text-to-text',

    model='microsoft/Phi-4-reasoning-vision',

    torch_dtype='auto', device_map='cuda')

result = pipe({'text': '日本語で回答してください', 'image': None})

print(result)

"

画像入力機能を使う場合はCUDA 12.x以上が必要です。マルチモーダル機能はCPUのみでは非常に低速になります。

AndroidスマートフォンへのPhi-4-reasoning-visionインストール

15Bパラメータモデルながら、量子化版（Q4）は約9GBとコンパクトです。高スペックAndroidスマートフォン（RAM 12GB以上）ならTermuxやPocketPal AIアプリを使ってローカル実行が可能です。

方法1 PocketPal AIアプリ（初心者向け・推奨）

Google PlayでPocketPal AIをインストールします。アプリ内「モデル検索」からPhi-4-reasoning-visionを選択してダウンロードするだけです。コマンド操作不要のGUI環境でマルチモーダルAIを体験できます。

✅ 推奨デバイス

・Galaxy S25 Ultra (12GB RAM)
・Pixel 9 Pro XL (16GB RAM)
・OnePlus 12 (16GB RAM)

⚠️ 注意点

・ストレージ10GB以上必要
・発熱に注意（冷却推奨）
・画像認識は限定的

方法2 Termux + llama.cppで実行


# F-DroidからTermuxをインストール

pkg update && pkg upgrade

pkg install git cmake clang


# llama.cppをビルド

git clone https://github.com/ggml-org/llama.cpp

cd llama.cpp && mkdir build && cd build

cmake .. -DGGML_OPENCL=ON

make -j4


# GGUFをダウンロード（Wi-Fi推奨）

# HuggingFaceからPhi-4-reasoning-vision-Q4.ggufを取得

./bin/llama-cli -m Phi-4-reasoning-vision-Q4.gguf \

  --ctx-size 2048 -p "日本語で回答してください："

iPhoneへのPhi-4-reasoning-visionインストール方法

iPhone 15 Pro以降（A17 Proチップ、8GB RAM）ではPhi-4-reasoning-visionの量子化版をローカル実行できます。App Storeの専用アプリを使うことで、コマンド操作なしに高性能マルチモーダルAIをスマートフォンで楽しめます。

1 Off Gridアプリ（最も簡単）

App Storeで「Off Grid」を検索してインストールします。「モデルを追加」→「Microsoft」→「Phi-4-reasoning-vision」を選択してダウンロードします。

推奨iPhone

15 Pro以降

A17 Pro以降

モデルサイズ

約9GB

Q4量子化

速度

15+tok/s

iPhone 16 Pro

2 LLM Farm（代替アプリ）

App Storeで「LLM Farm」をインストールします。カスタムモデルとしてHuggingFaceからGGUFファイルのURLを指定することでPhi-4-reasoning-visionを追加できます。

iPhone 16 Pro Max（8GB RAM）でPhi-4-reasoning-visionのQ4版が15-20トークン/秒で動作します。テキスト推論は高速ですが、画像解析はやや遅くなります。

Phi-4-reasoning-visionの活用シーン

📐 数学・科学的推論

数式画像を読み込んで証明・解法を生成。グラフ・図解を解析して定量的な解説を提供。試験問題の画像から解答プロセスを詳述。

💻 UI・スクリーンショット解析

アプリのスクリーンショットを解析してUI改善提案。エラー画面から問題の根本原因を特定。Webデザインのアクセシビリティ評価。

📊 データ・チャート分析

棒グラフ・折れ線グラフの数値を読み取り、トレンド分析・将来予測を生成。財務報告書の図表から要約レポートを自動作成。

🔬 医療・研究支援

研究論文の図表・実験データを解析。医療画像（X線・MRI）への補助的解釈。実験プロトコルの最適化提案。

よくあるトラブルと解決方法

❌ 問題：画像入力が認識されない

Ollamaのバージョンが古い場合、マルチモーダル機能が動作しません。ollama --versionで最新版（v0.17.6以降）を確認し、更新してください。

⚠️ 問題：ダウンロードが遅い・中断する

HuggingFaceへの接続が不安定な場合に発生します。VPN07の1000Mbps高速専用回線に切り替えることで安定したダウンロードが可能になります。同じコマンドを再実行すると自動的に途中から再開します。

✅ 問題：推論が途中で停止する

Phi-4-reasoning-visionは推論プロセスを詳細に出力するため、生成トークン数が多くなりがちです。--max-tokens 4096でトークン上限を増やしてください。

HuggingFaceからの高速・安定ダウンロード

Phi-4-reasoning-visionのモデルファイルはHuggingFace（米国サーバー）で配信されています。モデルは約9GB（Q4量子化）とDeepSeek V3に比べてコンパクトですが、接続が不安定だと途中でダウンロードが中断する場合があります。

💡 高速ダウンロードのヒント

有線LAN接続でWi-Fiより安定した速度を確保
VPN07の1000Mbps専用高速回線でHuggingFaceへの接続を最適化
ModelScopeミラー利用：HF_ENDPOINT=https://hf-mirror.com
9GBなら1000Mbps回線で約72秒で完了（理論値）

さらに多くのオープンソースLLMをチェック

Phi-4 / DeepSeek V3 / Kimi K2.5 / Llama 4 一覧はこちら

全モデルを見る →

VPN07：AIモデルを安定・超高速にダウンロード

10年以上の実績・IEPL専用回線・世界70カ国対応

Phi-4-reasoning-visionなどのLLMモデルのダウンロードにはHuggingFaceへの安定接続が不可欠です。VPN07の1000Mbps超高速専用回線なら、9GBモデルもわずか数分でダウンロード完了。さらにMicrosoft Azure APIへの接続も最適化されます。月額$1.5・30日間返金保証で安心してお試しいただけます。AI開発を10年の実績でサポートします。

$1.5/月

業界最安値

1000Mbps

超高速帯域

70+国

グローバル対応

30日

返金保証

VPN07を無料で試す料金プランを見る

Microsoft

Phi-4 全プラットフォームインストール完全ガイド【Windows/Mac/スマホ】

前世代Phi-4のインストール手順と比較。テキスト特化版の詳細解説。

続きを読む → DeepSeek V3

DeepSeek V3-0324 インストール完全ガイド【全プラットフォーム対応】

2026年3月最新のDeepSeek V3-0324を全デバイスにインストールする方法。

続きを読む →

Phi-4-reasoning-vision インストール！Microsoft最新マルチモーダルAI Windows・Mac・スマホ全対応【2026年3月】

Phi-4-reasoning-visionとは？Phi-4との違いと主な特徴

Phi-4-reasoning-vision - 15B最強のマルチモーダル推論AI

プラットフォーム別推奨スペック一覧

Phi-4-reasoning-vision デバイス別動作環境

WindowsへのPhi-4-reasoning-visionインストール

1 Ollamaをインストール

2 PowerShellでPhi-4-reasoning-visionを起動

3 HuggingFace Transformersで直接実行（上級者向け）

macOSへのインストール方法（Apple Silicon最適化）

1 Ollamaでインストール（最速・推奨）

2 MLXフレームワークで高速実行

Linux（Ubuntu）へのインストール

Ubuntu/Debian系での完全セットアップ

AndroidスマートフォンへのPhi-4-reasoning-visionインストール

方法1 PocketPal AIアプリ（初心者向け・推奨）

方法2 Termux + llama.cppで実行

iPhoneへのPhi-4-reasoning-visionインストール方法

1 Off Gridアプリ（最も簡単）

2 LLM Farm（代替アプリ）

Phi-4-reasoning-visionの活用シーン

📐 数学・科学的推論

💻 UI・スクリーンショット解析

📊 データ・チャート分析

🔬 医療・研究支援

よくあるトラブルと解決方法

❌ 問題：画像入力が認識されない

⚠️ 問題：ダウンロードが遅い・中断する

✅ 問題：推論が途中で停止する

HuggingFaceからの高速・安定ダウンロード

💡 高速ダウンロードのヒント

VPN07：AIモデルを安定・超高速にダウンロード

関連記事

Phi-4 全プラットフォームインストール完全ガイド【Windows/Mac/スマホ】

DeepSeek V3-0324 インストール完全ガイド【全プラットフォーム対応】

Phi-4-reasoning-vision インストール！Microsoft最新マルチモーダルAI Windows・Mac・スマホ全対応【2026年3月】

Phi-4-reasoning-visionとは？Phi-4との違いと主な特徴

Phi-4-reasoning-vision - 15B最強のマルチモーダル推論AI

プラットフォーム別 推奨スペック一覧

Phi-4-reasoning-vision デバイス別動作環境

WindowsへのPhi-4-reasoning-visionインストール

1 Ollamaをインストール

2 PowerShellでPhi-4-reasoning-visionを起動

3 HuggingFace Transformersで直接実行（上級者向け）

macOSへのインストール方法（Apple Silicon最適化）

1 Ollamaでインストール（最速・推奨）

2 MLXフレームワークで高速実行

Linux（Ubuntu）へのインストール

Ubuntu/Debian系での完全セットアップ

AndroidスマートフォンへのPhi-4-reasoning-visionインストール

方法1 PocketPal AIアプリ（初心者向け・推奨）

方法2 Termux + llama.cppで実行

iPhoneへのPhi-4-reasoning-visionインストール方法

1 Off Gridアプリ（最も簡単）

2 LLM Farm（代替アプリ）

Phi-4-reasoning-visionの活用シーン

📐 数学・科学的推論

💻 UI・スクリーンショット解析

📊 データ・チャート分析

🔬 医療・研究支援

よくあるトラブルと解決方法

❌ 問題：画像入力が認識されない

⚠️ 問題：ダウンロードが遅い・中断する

✅ 問題：推論が途中で停止する

HuggingFaceからの高速・安定ダウンロード

💡 高速ダウンロードのヒント

VPN07：AIモデルを安定・超高速にダウンロード

関連記事

Phi-4 全プラットフォームインストール完全ガイド【Windows/Mac/スマホ】

DeepSeek V3-0324 インストール完全ガイド【全プラットフォーム対応】

プラットフォーム別推奨スペック一覧