VPN07

Qwen3.5 APIを無料で使う:OllamaとHugging Face入門ガイド

2026-03-03 約14分で読める API Ollama 開発者向け

この記事について:Qwen3.5はApache 2.0ライセンスで公開されているため、完全無料・商用利用可能です。本記事ではOllama(最も簡単なローカル実行ツール)、Hugging Face(モデルダウンロード・Inference API)、そしてAlibaba Cloud API(OpenAI互換・月$0.18/Mtokから)の3つのアクセス方法を、実際のコード付きで徹底解説します。ChatGPT APIの月数万円の費用から解放される方法をお伝えします。

Qwen3.5へのアクセス方法:3つのルート

🦙

Ollama

完全無料
ローカル実行・コマンド1行で起動
Windows / Mac / Linux
🤗

Hugging Face

無料枠あり
モデルDL・Serverless API
Inference API提供
☁️

Alibaba Cloud API

$0.18/Mtok
OpenAI互換・高可用性
無料枠あり(新規登録)

方法1:Ollamaで最も簡単にQwen3.5を実行

OllamaはローカルでLLMを実行するためのオープンソースツールです。インストールからQwen3.5の起動まで、わずか2つのコマンドで完了します。Mac・Windows・Linuxすべてに対応しており、GPU(NVIDIA・AMD・Apple Silicon)を自動的に検出して最適化してくれます。

1 Ollamaのインストール

🍎 macOS

brew install ollama

🐧 Linux

curl -fsSL https://ollama.com/install.sh | sh

🪟 Windows

ollama.com から
インストーラをDL

2 Qwen3.5モデルのダウンロードと起動

Ollamaコマンド1つでモデルのダウンロードから起動まで自動的に行われます。PCのスペックに応じてモデルを選んでください。

# 軽量モデル(RAM 8GB推奨)
ollama run qwen3.5:4b

# 高品質モデル(RAM 16GB推奨)
ollama run qwen3.5:9b

# 超軽量モデル(RAM 4GB可)
ollama run qwen3.5:2b

# 利用可能なQwen3.5モデル一覧確認
ollama list

初回は自動ダウンロードが始まります。2Bモデルで約1.8GB、4Bで約3.2GB。以降は再ダウンロード不要でオフライン実行可能。

3 OllamaをAPIサーバーとして使う

Ollamaは自動的にOpenAI互換のRESTful APIサーバーを起動します(デフォルトポート:11434)。既存のChatGPT APIコードをほぼ変更なく移行できます。

from openai import OpenAI

# OllamaのローカルAPIを使用
client = OpenAI(
base_url='http://localhost:11434/v1',
api_key='ollama' # 不要だが必須引数
)

response = client.chat.completions.create(
model="qwen3.5:4b",
messages=[
{"role": "user", "content": "量子コンピュータを日本語で簡単に説明して"}
]
)
print(response.choices[0].message.content)

Open WebUI:ブラウザで使うChatGPT風UI

コマンドラインが苦手な方には、Open WebUIがおすすめです。Ollamaと連携してChatGPTそっくりのブラウザUIを提供します。

# Dockerがある場合(最も簡単)
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
ghcr.io/open-webui/open-webui:main

# ブラウザで http://localhost:3000 を開く
# → Qwen3.5を選択してChatGPT感覚で使える!

方法2:Hugging Faceでモデルを直接ダウンロード

Hugging FaceはQwen3.5のオープンウェイトモデルが公式に公開されているプラットフォームです。Apache 2.0ライセンスで完全無料・商用利用可能。Transformersライブラリを使えば数行のコードでQwen3.5を実行できます。

Qwen3.5-0.8B
~600MB
モバイル・組み込み向け
Qwen3.5-2B
~4GB
ローカルPC向け
Qwen3.5-4B
~8GB
ハイエンドPC向け
Qwen3.5-9B
~18GB
GPU搭載PC向け

1 Transformersを使ったQwen3.5の実行

# 必要なライブラリをインストール
pip install transformers torch accelerate

# Qwen3.5-4B-Instructを実行
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model_name = "Qwen/Qwen3.5-4B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.float16,
device_map="auto"
)

# チャット形式で生成
messages = [{"role": "user", "content": "日本語でAIの未来を教えて"}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer([text], return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=512)
response = tokenizer.decode(outputs[0][inputs.input_ids.shape[1]:])
print(response)

2 Hugging Face Serverless Inference API(無料枠)

Hugging Face Hubアカウントを作成すると、一定量の無料Inference APIが使えます。GPUが手元になくてもクラウドでQwen3.5を試せます。

pip install huggingface_hub

from huggingface_hub import InferenceClient

client = InferenceClient(
model="Qwen/Qwen3.5-4B-Instruct",
token="YOUR_HF_TOKEN" # HF無料アカウントで取得
)

response = client.chat.completions.create(
messages=[{"role": "user", "content": "Pythonでフィボナッチ数列を生成して"}],
max_tokens=512
)
print(response.choices[0].message.content)

方法3:Alibaba Cloud API(本番環境向け)

本番アプリケーションやチームでの使用には、Alibaba Cloud ModelStudioのAPIが最適です。OpenAI SDKと完全互換のため、既存のChatGPTコードをbaseURLを変更するだけで移行できます。料金は1Mトークンあたり$0.18と、GPT-5.2 APIの約100分の1です。

APIキーの取得手順

Alibaba Cloud(alibabacloud.com)にアクセスしてアカウント登録
ModelStudio コンソール(dashscope.aliyuncs.com)を開く
左メニュー「APIキー管理」→「APIキーを作成」をクリック
発行されたAPIキーを安全な場所に保存(例:sk-xxxxx)
新規登録ユーザーには無料クレジットが付与されます

1 Python(OpenAI SDK)での基本的な使い方

pip install openai

import os
from openai import OpenAI

client = OpenAI(
api_key=os.environ.get("DASHSCOPE_API_KEY"),
base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1"
)

# Qwen3.5-Plusを使用(推奨)
response = client.chat.completions.create(
model="qwen-plus", # Qwen3.5-Plus
messages=[
{"role": "system", "content": "あなたは優秀な日本語AIアシスタントです。"},
{"role": "user", "content": "量子コンピュータについて詳しく教えて"}
],
stream=False
)
print(response.choices[0].message.content)

2 ストリーミング応答(リアルタイム生成)

# ストリーミングモードで文字を順番に受信
stream = client.chat.completions.create(
model="qwen-plus",
messages=[{"role": "user", "content": "日本の伝統文化を5つ説明して"}],
stream=True
)

for chunk in stream:
if chunk.choices[0].delta.content is not None:
print(chunk.choices[0].delta.content, end="", flush=True)

3 マルチモーダル:画像分析

# 画像URLを含むメッセージ(マルチモーダル)
response = client.chat.completions.create(
model="qwen-vl-plus", # ビジョンモデル
messages=[
{
"role": "user",
"content": [
{"type": "image_url", "image_url": {"url": "https://example.com/image.jpg"}},
{"type": "text", "text": "この画像に何が写っていますか?日本語で説明して"}
]
}
]
)
print(response.choices[0].message.content)

Alibaba Cloud APIで使えるQwen3.5モデル一覧

Qwen3.5 APIモデル一覧と用途

APIモデル名 推定コスト 特徴・用途
qwen-plus(Qwen3.5-Plus) $0.18/Mtok 総合推奨・エージェント・コード生成
qwen-max(Qwen3.5-Max) $0.40/Mtok 最高精度・複雑なタスク向け
qwen-turbo(Qwen3.5-Turbo) $0.05/Mtok 高速・低コスト・大量処理向け
qwen-vl-plus(ビジョン) $0.21/Mtok 画像・動画分析・OCR

Function Calling(ツールコール)でAIエージェントを作る

Qwen3.5の最大の特徴の一つが内蔵ツールコール(Function Calling)です。AIが自律的に外部ツールやAPIを呼び出して複雑なタスクを完了できます。

# ツールコールの例:天気を調べるAIエージェント
tools = [
{
"type": "function",
"function": {
"name": "get_weather",
"description": "特定の都市の天気を取得する",
"parameters": {
"type": "object",
"properties": {
"city": {"type": "string", "description": "都市名(例:東京)"},
"unit": {"type": "string", "enum": ["celsius", "fahrenheit"]}
},
"required": ["city"]
}
}
}
]

response = client.chat.completions.create(
model="qwen-plus",
messages=[{"role": "user", "content": "東京の今日の天気を教えて"}],
tools=tools,
tool_choice="auto"
)
# Qwen3.5がget_weather関数を自動的に呼び出す

実用的なアプリケーション例

チャットボット構築

ウェブサイト用チャットボットをQwen3.5-TurboとOpenAI互換APIで構築。ChatGPT APIの100分の1のコストで同等の品質を実現できます。

文書自動処理

1Mトークンの超長コンテキストを活用して、大量の契約書・マニュアル・レポートを一括処理。月数百万円のコストを大幅に削減できます。

コードレビュー自動化

GitHub ActionsとQwen3.5 APIを連携して、プルリクエストのコードを自動レビュー。LiveCodeBench 83.6のスコアで高品質なレビューが可能です。

RAG(検索拡張生成)

社内ドキュメントをベクトル化してQwen3.5と連携するRAGシステムを構築。社内専用AIアシスタントを低コストで実装できます。

安定したAPI接続のためのネットワーク最適化

Alibaba Cloud APIのエンドポイントは主にシンガポール・米国にあります。日本国内から大量のAPIリクエストを送る場合、通常のインターネット回線では遅延やタイムアウトが発生することがあります。特に本番環境では接続の安定性が重要です。

💡 開発者向けTip:VPN07でAPI接続を安定化

  • • Alibaba Cloud APIサーバーへの低遅延接続(シンガポール・東京ノード)
  • • 1000Mbpsの超高速帯域で大量トークンを高速処理
  • • Hugging Faceからの大型モデルファイル(数GB)の高速ダウンロード
  • • 70か国以上のノードで本番環境の地域テストが可能

RAG(検索拡張生成)システムをQwen3.5で構築

RAG(Retrieval-Augmented Generation)は、社内ドキュメントや専門知識をAIに効率よく活用させる技術です。Qwen3.5とLangChainを組み合わせることで、費用対効果の高い企業内AIシステムを構築できます。

LangChain + Ollama + Qwen3.5でRAGシステム構築

pip install langchain langchain-community chromadb

from langchain_community.llms import Ollama
from langchain_community.vectorstores import Chroma
from langchain_community.embeddings import OllamaEmbeddings
from langchain.chains import RetrievalQA
from langchain.text_splitter import RecursiveCharacterTextSplitter

# Qwen3.5モデルを設定
llm = Ollama(model="qwen3.5:4b")
embeddings = OllamaEmbeddings(model="qwen3.5:2b")

# 社内ドキュメントを読み込んでベクトル化
with open("company_manual.txt", "r", encoding="utf-8") as f:
text = f.read()

splitter = RecursiveCharacterTextSplitter(chunk_size=1000)
docs = splitter.create_documents([text])
vectorstore = Chroma.from_documents(docs, embeddings)

# RAG QAチェーンを作成
qa = RetrievalQA.from_chain_type(llm=llm, retriever=vectorstore.as_retriever())
answer = qa.run("就業規則の有給休暇について教えて")
print(answer)

月間コスト比較:Qwen3.5 vs ChatGPT API

実際のビジネス使用量(月100万トークン)でのAPI費用を比較すると、Qwen3.5の圧倒的なコスト優位性が明確になります。

月100万トークン使用時のコスト比較

サービス 単価/Mtok 月額コスト 年間コスト
Qwen3.5-Plus(ローカルOllama) $0 $0 $0
Qwen3.5-Plus(Cloud API) $0.18 $0.18 $2.16
GPT-5.2 API $15 $15 $180
Claude Opus API $75 $75 $900

まとめ:Qwen3.5でAI開発コストを劇的に削減

Qwen3.5はオープンソースAIの最先端を体現しています。ローカル実行なら完全無料、クラウドAPIなら1Mトークン$0.18という破格のコストで、GPT-5.2に匹敵する性能が手に入ります。

開発者にとっての選択肢は明確です:個人・小規模プロジェクト→Ollama、中規模プロジェクト→Hugging Face Inference API、本番環境→Alibaba Cloud API。すべてOpenAI SDKと互換性があるため、移行コストは最小限です。

VPN07:AI開発に最適な高速回線

10年以上の実績・IEPL専用回線・70か国以上

Qwen3.5 API・Hugging Face・Ollamaを最大限に活用するには安定した高速接続が必須。VPN07のIEPL1000Mbps専用回線なら、Alibaba Cloud APIの低遅延アクセス・大型モデルファイルの高速ダウンロードが実現します。ChatGPT APIの費用を大幅に削減して、VPN07の月$1.5で理想のAI開発環境を構築してください。

$1.5/月
業界最安値
1000Mbps
超高速帯域
70+国
グローバル対応
30日
返金保証

関連記事

月額$1.5 · 10年の実績
VPN07を無料で試す