Qwen3.5を無料で使う：Ollama・Hugging Face完全入門

この記事について：Qwen3.5はApache 2.0ライセンスで公開されているため、完全無料・商用利用可能です。本記事ではOllama（最も簡単なローカル実行ツール）、Hugging Face（モデルダウンロード・Inference API）、そしてAlibaba Cloud API（OpenAI互換・月$0.18/Mtokから）の3つのアクセス方法を、実際のコード付きで徹底解説します。ChatGPT APIの月数万円の費用から解放される方法をお伝えします。

Qwen3.5へのアクセス方法：3つのルート

🦙

Ollama

完全無料

ローカル実行・コマンド1行で起動

Windows / Mac / Linux

🤗

Hugging Face

無料枠あり

モデルDL・Serverless API

Inference API提供

☁️

Alibaba Cloud API

$0.18/Mtok

OpenAI互換・高可用性

無料枠あり（新規登録）

方法1：Ollamaで最も簡単にQwen3.5を実行

OllamaはローカルでLLMを実行するためのオープンソースツールです。インストールからQwen3.5の起動まで、わずか2つのコマンドで完了します。Mac・Windows・Linuxすべてに対応しており、GPU（NVIDIA・AMD・Apple Silicon）を自動的に検出して最適化してくれます。

1 Ollamaのインストール

🍎 macOS

brew install ollama

🐧 Linux

curl -fsSL https://ollama.com/install.sh | sh

🪟 Windows

ollama.com から
インストーラをDL

2 Qwen3.5モデルのダウンロードと起動

Ollamaコマンド1つでモデルのダウンロードから起動まで自動的に行われます。PCのスペックに応じてモデルを選んでください。

# 軽量モデル（RAM 8GB推奨）

ollama run qwen3.5:4b


# 高品質モデル（RAM 16GB推奨）

ollama run qwen3.5:9b


# 超軽量モデル（RAM 4GB可）

ollama run qwen3.5:2b


# 利用可能なQwen3.5モデル一覧確認

ollama list

初回は自動ダウンロードが始まります。2Bモデルで約1.8GB、4Bで約3.2GB。以降は再ダウンロード不要でオフライン実行可能。

3 OllamaをAPIサーバーとして使う

Ollamaは自動的にOpenAI互換のRESTful APIサーバーを起動します（デフォルトポート：11434）。既存のChatGPT APIコードをほぼ変更なく移行できます。

from openai import OpenAI


# OllamaのローカルAPIを使用

client = OpenAI(

    base_url='http://localhost:11434/v1',

    api_key='ollama'  # 不要だが必須引数

)


response = client.chat.completions.create(

    model="qwen3.5:4b",

    messages=[

        {"role": "user", "content": "量子コンピュータを日本語で簡単に説明して"}

    ]

)

print(response.choices[0].message.content)

Open WebUI：ブラウザで使うChatGPT風UI

コマンドラインが苦手な方には、Open WebUIがおすすめです。Ollamaと連携してChatGPTそっくりのブラウザUIを提供します。

# Dockerがある場合（最も簡単）

docker run -d -p 3000:8080 \

  --add-host=host.docker.internal:host-gateway \

  -v open-webui:/app/backend/data \

  --name open-webui \

  ghcr.io/open-webui/open-webui:main


# ブラウザで http://localhost:3000 を開く

# → Qwen3.5を選択してChatGPT感覚で使える！

方法2：Hugging Faceでモデルを直接ダウンロード

Hugging FaceはQwen3.5のオープンウェイトモデルが公式に公開されているプラットフォームです。Apache 2.0ライセンスで完全無料・商用利用可能。Transformersライブラリを使えば数行のコードでQwen3.5を実行できます。

Qwen3.5-0.8B

~600MB

モバイル・組み込み向け

Qwen3.5-2B

~4GB

ローカルPC向け

Qwen3.5-4B

~8GB

ハイエンドPC向け

Qwen3.5-9B

~18GB

GPU搭載PC向け

1 Transformersを使ったQwen3.5の実行

# 必要なライブラリをインストール

pip install transformers torch accelerate


# Qwen3.5-4B-Instructを実行

from transformers import AutoModelForCausalLM, AutoTokenizer

import torch


model_name = "Qwen/Qwen3.5-4B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_name)

model = AutoModelForCausalLM.from_pretrained(

    model_name,

    torch_dtype=torch.float16,

    device_map="auto"

)


# チャット形式で生成

messages = [{"role": "user", "content": "日本語でAIの未来を教えて"}]

text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)

inputs = tokenizer([text], return_tensors="pt").to(model.device)

outputs = model.generate(**inputs, max_new_tokens=512)

response = tokenizer.decode(outputs[0][inputs.input_ids.shape[1]:])

print(response)

2 Hugging Face Serverless Inference API（無料枠）

Hugging Face Hubアカウントを作成すると、一定量の無料Inference APIが使えます。GPUが手元になくてもクラウドでQwen3.5を試せます。

pip install huggingface_hub


from huggingface_hub import InferenceClient


client = InferenceClient(

    model="Qwen/Qwen3.5-4B-Instruct",

    token="YOUR_HF_TOKEN"  # HF無料アカウントで取得

)


response = client.chat.completions.create(

    messages=[{"role": "user", "content": "Pythonでフィボナッチ数列を生成して"}],

    max_tokens=512

)

print(response.choices[0].message.content)

方法3：Alibaba Cloud API（本番環境向け）

本番アプリケーションやチームでの使用には、Alibaba Cloud ModelStudioのAPIが最適です。OpenAI SDKと完全互換のため、既存のChatGPTコードをbaseURLを変更するだけで移行できます。料金は1Mトークンあたり$0.18と、GPT-5.2 APIの約100分の1です。

APIキーの取得手順

①Alibaba Cloud（alibabacloud.com）にアクセスしてアカウント登録

②ModelStudio コンソール（dashscope.aliyuncs.com）を開く

③左メニュー「APIキー管理」→「APIキーを作成」をクリック

④発行されたAPIキーを安全な場所に保存（例：sk-xxxxx）

⑤新規登録ユーザーには無料クレジットが付与されます

1 Python（OpenAI SDK）での基本的な使い方

pip install openai


import os

from openai import OpenAI


client = OpenAI(

    api_key=os.environ.get("DASHSCOPE_API_KEY"),

    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1"

)


# Qwen3.5-Plusを使用（推奨）

response = client.chat.completions.create(

    model="qwen-plus",  # Qwen3.5-Plus

    messages=[

        {"role": "system", "content": "あなたは優秀な日本語AIアシスタントです。"},

        {"role": "user", "content": "量子コンピュータについて詳しく教えて"}

    ],

    stream=False

)

print(response.choices[0].message.content)

2 ストリーミング応答（リアルタイム生成）

# ストリーミングモードで文字を順番に受信

stream = client.chat.completions.create(

    model="qwen-plus",

    messages=[{"role": "user", "content": "日本の伝統文化を5つ説明して"}],

    stream=True

)


for chunk in stream:

    if chunk.choices[0].delta.content is not None:

        print(chunk.choices[0].delta.content, end="", flush=True)

3 マルチモーダル：画像分析

# 画像URLを含むメッセージ（マルチモーダル）

response = client.chat.completions.create(

    model="qwen-vl-plus",  # ビジョンモデル

    messages=[

        {

            "role": "user",

            "content": [

                {"type": "image_url", "image_url": {"url": "https://example.com/image.jpg"}},

                {"type": "text", "text": "この画像に何が写っていますか？日本語で説明して"}

            ]

        }

    ]

)

print(response.choices[0].message.content)

Alibaba Cloud APIで使えるQwen3.5モデル一覧

Qwen3.5 APIモデル一覧と用途

APIモデル名	推定コスト	特徴・用途
qwen-plus（Qwen3.5-Plus）	$0.18/Mtok	総合推奨・エージェント・コード生成
qwen-max（Qwen3.5-Max）	$0.40/Mtok	最高精度・複雑なタスク向け
qwen-turbo（Qwen3.5-Turbo）	$0.05/Mtok	高速・低コスト・大量処理向け
qwen-vl-plus（ビジョン）	$0.21/Mtok	画像・動画分析・OCR

Function Calling（ツールコール）でAIエージェントを作る

Qwen3.5の最大の特徴の一つが内蔵ツールコール（Function Calling）です。AIが自律的に外部ツールやAPIを呼び出して複雑なタスクを完了できます。

# ツールコールの例：天気を調べるAIエージェント

tools = [

    {

        "type": "function",

        "function": {

            "name": "get_weather",

            "description": "特定の都市の天気を取得する",

            "parameters": {

                "type": "object",

                "properties": {

                    "city": {"type": "string", "description": "都市名（例：東京）"},

                    "unit": {"type": "string", "enum": ["celsius", "fahrenheit"]}

                },

                "required": ["city"]

            }

        }

    }

]


response = client.chat.completions.create(

    model="qwen-plus",

    messages=[{"role": "user", "content": "東京の今日の天気を教えて"}],

    tools=tools,

    tool_choice="auto"

)

# Qwen3.5がget_weather関数を自動的に呼び出す

実用的なアプリケーション例

チャットボット構築

ウェブサイト用チャットボットをQwen3.5-TurboとOpenAI互換APIで構築。ChatGPT APIの100分の1のコストで同等の品質を実現できます。

文書自動処理

1Mトークンの超長コンテキストを活用して、大量の契約書・マニュアル・レポートを一括処理。月数百万円のコストを大幅に削減できます。

コードレビュー自動化

GitHub ActionsとQwen3.5 APIを連携して、プルリクエストのコードを自動レビュー。LiveCodeBench 83.6のスコアで高品質なレビューが可能です。

RAG（検索拡張生成）

社内ドキュメントをベクトル化してQwen3.5と連携するRAGシステムを構築。社内専用AIアシスタントを低コストで実装できます。

安定したAPI接続のためのネットワーク最適化

Alibaba Cloud APIのエンドポイントは主にシンガポール・米国にあります。日本国内から大量のAPIリクエストを送る場合、通常のインターネット回線では遅延やタイムアウトが発生することがあります。特に本番環境では接続の安定性が重要です。

💡 開発者向けTip：VPN07でAPI接続を安定化

• Alibaba Cloud APIサーバーへの低遅延接続（シンガポール・東京ノード）
• 1000Mbpsの超高速帯域で大量トークンを高速処理
• Hugging Faceからの大型モデルファイル（数GB）の高速ダウンロード
• 70か国以上のノードで本番環境の地域テストが可能

RAG（検索拡張生成）システムをQwen3.5で構築

RAG（Retrieval-Augmented Generation）は、社内ドキュメントや専門知識をAIに効率よく活用させる技術です。Qwen3.5とLangChainを組み合わせることで、費用対効果の高い企業内AIシステムを構築できます。

LangChain + Ollama + Qwen3.5でRAGシステム構築

pip install langchain langchain-community chromadb


from langchain_community.llms import Ollama

from langchain_community.vectorstores import Chroma

from langchain_community.embeddings import OllamaEmbeddings

from langchain.chains import RetrievalQA

from langchain.text_splitter import RecursiveCharacterTextSplitter


# Qwen3.5モデルを設定

llm = Ollama(model="qwen3.5:4b")

embeddings = OllamaEmbeddings(model="qwen3.5:2b")


# 社内ドキュメントを読み込んでベクトル化

with open("company_manual.txt", "r", encoding="utf-8") as f:

    text = f.read()


splitter = RecursiveCharacterTextSplitter(chunk_size=1000)

docs = splitter.create_documents([text])

vectorstore = Chroma.from_documents(docs, embeddings)


# RAG QAチェーンを作成

qa = RetrievalQA.from_chain_type(llm=llm, retriever=vectorstore.as_retriever())

answer = qa.run("就業規則の有給休暇について教えて")

print(answer)

月間コスト比較：Qwen3.5 vs ChatGPT API

実際のビジネス使用量（月100万トークン）でのAPI費用を比較すると、Qwen3.5の圧倒的なコスト優位性が明確になります。

月100万トークン使用時のコスト比較

サービス	単価/Mtok	月額コスト	年間コスト
Qwen3.5-Plus（ローカルOllama）	$0	$0	$0
Qwen3.5-Plus（Cloud API）	$0.18	$0.18	$2.16
GPT-5.2 API	$15	$15	$180
Claude Opus API	$75	$75	$900

まとめ：Qwen3.5でAI開発コストを劇的に削減

Qwen3.5はオープンソースAIの最先端を体現しています。ローカル実行なら完全無料、クラウドAPIなら1Mトークン$0.18という破格のコストで、GPT-5.2に匹敵する性能が手に入ります。

開発者にとっての選択肢は明確です：個人・小規模プロジェクト→Ollama、中規模プロジェクト→Hugging Face Inference API、本番環境→Alibaba Cloud API。すべてOpenAI SDKと互換性があるため、移行コストは最小限です。

VPN07：AI開発に最適な高速回線

10年以上の実績・IEPL専用回線・70か国以上

Qwen3.5 API・Hugging Face・Ollamaを最大限に活用するには安定した高速接続が必須。VPN07のIEPL1000Mbps専用回線なら、Alibaba Cloud APIの低遅延アクセス・大型モデルファイルの高速ダウンロードが実現します。ChatGPT APIの費用を大幅に削減して、VPN07の月$1.5で理想のAI開発環境を構築してください。

$1.5/月

業界最安値

1000Mbps

超高速帯域

70+国

グローバル対応

30日

返金保証

VPN07を無料で試す料金プランを見る

比較

Qwen3.5-397B vs ChatGPT徹底比較：圧倒的な差がついた理由

ベンチマーク・コスト・使いやすさを多角的に比較した徹底レポート。

続きを読む → Android

AndroidでQwen3.5を動かす！Termux完全インストールガイド

AndroidスマートフォンでQwen3.5をローカル実行する3つの方法を解説。

続きを読む →

Qwen3.5 APIを無料で使う：OllamaとHugging Face入門ガイド