Qwen3.5 + Ollama でローカルAIを動かす完全ガイド

目次
1. Qwen3.5の概要
1. 主な特徴
2. リリースの経緯
2. Ollamaの概要
1. Ollamaとは
3. Qwen3.5 モデルサイズ一覧
4. Ollamaのインストール方法
5. Qwen3.5のインストールと起動
6. OllamaのGUI（Open WebUI）の使い方
まとめ
関連記事
参考リンク

1. Qwen3.5の概要

Qwen3.5は、中国のテクノロジー企業Alibaba Cloud（アリババクラウド）のQwenチームが開発・公開した大規模言語モデル（LLM）シリーズです。2026年初頭に段階的にリリースされ、モデルサイズと用途の幅広さで注目を集めています。

主な特徴

特徴	詳細
マルチモーダル対応	テキストだけでなく、画像入力にも対応（VLM）
長文コンテキスト	最大 262,144トークン（262K）のネイティブコンテキストウィンドウ
多言語対応	201言語をサポート（日本語含む）
推論モード	デフォルトで推論（Reasoning）機能を内蔵
アーキテクチャ	Qwen-Nextアーキテクチャ（GDNレイヤー採用）
ライセンス	Apache 2.0（商用利用可）

リリースの経緯

Qwen3.5は2026年にわたって3段階でリリースされました。

2026年2月16日 – フラッグシップモデル（397B-A17B MoE）公開
2026年2月24日 – ミディアムシリーズ（27B、35B-A3B、122B-A10B）公開
2026年3月2日 – スモールシリーズ（0.8B〜9B）公開

初期の大規模モデルから小型モデルまで段階的にリリースすることで、研究者から一般ユーザーまで幅広い層での活用を実現しています。

2. Ollamaの概要

Ollamaとは

Ollamaは、LLaMA・Qwen・DeepSeek・MistralなどのオープンソースLLMをローカル環境で簡単に実行できるオープンソースツールです。クラウドサービスを使わずに自社・自分のハードウェア上でAIモデルを動かすことができます。

主な利点：

プライバシー保護：データが外部に送信されない
オフライン動作：インターネット接続不要
コスト削減：API課金が発生しない
簡単な操作：1コマンドでモデルの取得・実行が可能

2025年7月30日には、macOSおよびWindows向けのネイティブデスクトップアプリが正式リリースされ、さらに使いやすくなりました。

3. Qwen3.5 モデルサイズ一覧

Qwen3.5は用途や計算リソースに合わせて選べる豊富なモデルラインナップを提供しています。

スモールシリーズ（ローカル環境向け）

モデル名	パラメータ数	特徴	推奨用途
`qwen3.5:0.8b`	0.8B（8億）	超軽量、CPU動作可能	組み込みデバイス、低スペックPC
`qwen3.5:2b`	2B（20億）	軽量、高速応答	モバイル、エッジデバイス
`qwen3.5:4b`	4B（40億）	バランス型	一般的なPC、日常タスク
`qwen3.5:9b`	9B（90億）	高品質、ローカル最適解	ハイエンドPC、開発・研究

ミディアムシリーズ（高性能サーバー向け）

モデル名	パラメータ数	アーキテクチャ	特徴
`qwen3.5:27b`	27B（270億）	Dense（密）	高品質・低レイテンシ
`qwen3.5:35b-a3b`	35B総数 / 3B有効化	MoE（混合エキスパート）	35Bの知識を3Bの計算コストで利用
`qwen3.5:122b-a10b`	122B総数 / 10B有効化	MoE	フロンティア級の性能

フラッグシップシリーズ（クラウド・大規模向け）

モデル名	パラメータ数	アーキテクチャ	特徴
`qwen3.5:397b-a17b`	397B総数 / 17B有効化	MoE	最上位モデル、GPT-4クラスの性能

MoE（Mixture of Experts）とは: モデル全体の巨大なパラメータのうち、推論時には一部のパラメータのみを「活性化」する仕組みです。例えば397Bモデルでも推論時は17Bしか使わないため、計算コストを大幅に削減できます。

ローカル実行の目安（RAM/VRAM）

モデル	必要メモリ目安
0.8B	2GB以上
2B	4GB以上
4B	6GB以上
9B	8〜16GB（推奨16GB）
27B	16〜32GB

4. Ollamaのインストール方法

macOS

必要OS: macOS 14 Sonoma 以降

https://ollama.com/download/mac からDMGファイルをダウンロード
DMGをマウントし、Ollamaアプリを Applications フォルダにドラッグ＆ドロップ
アプリを起動するとメニューバーにアイコンが表示される

Versionの確認方法

アプリケーションからターミナルをクリックします

以下のコマンドを実行してバージョンが表示されれば正しくインストールされています

# インストール確認
ollama --version

Windows

必要OS: Windows 10 以降

https://ollama.com/download からEXEインストーラーをダウンロード
ダウンロードした .exe ファイルをダブルクリックして「install」ボタンをクリック

画面の指示に従いインストールを完了
スタートメニューからOllamaを起動

Version確認方法

以下のコマンドを実行するとOllamaのバージョンが確認できます

ollama --version

Linux

ターミナルで以下の1コマンドを実行するだけです：

curl -fsSL https://ollama.com/install.sh | sh

Linuxにインストールすると、ollama.service というsystemdサービスが自動作成され、OS起動時に自動的にOllamaが起動します。

# サービスの状態確認
sudo systemctl status ollama

# サービスの手動起動
sudo systemctl start ollama

# インストール確認
ollama --version

5. Qwen3.5のインストールと起動

Ollamaをインストールしたら、以下のコマンドでQwen3.5を利用できます。

モデルの取得と実行（ollama run）

ollama run コマンドはモデルが未取得の場合は自動的にダウンロードし、そのままチャットを開始します。

# 9Bモデルを起動（推奨：一般的なPC向け）
ollama run qwen3.5:9b

# 4Bモデルを起動（軽量版）
ollama run qwen3.5:4b

# 2Bモデルを起動（超軽量版）
ollama run qwen3.5:2b

# 0.8Bモデルを起動（最小版）
ollama run qwen3.5:0.8b

# タグ指定なし（デフォルト最新版）
ollama run qwen3.5

チャット画面が起動したら、プロンプトに質問を入力して Enter で送信できます。終了するには /bye と入力します。

qwen3.5:9bの例

以下はqwen3.5:9bのインストールを実行している状態です

インストールが完了すると「Send a message (/? for help)」と表示されます

「>>>」と表示されている場合、ここにメッセージを入力することができます

以下は「こんにちは」と入力した例です

「/bye」と入力して「Enter」キーを押すとOllamaが終了します

モデルのダウンロードのみ（ollama pull）

runはモデルを実行するコマンドでモデルがダウンロードされていない場合、ダウンロードを同時に実行するコマンドでした。

モデルだけダウンロードしたい場合は以下のコマンドを実行するとモデルだけダウンロードできます

# モデルを事前ダウンロードしておく
ollama pull qwen3.5:9b

以下はコマンドの実行です

モデル一覧の確認

ダウンロードしたモデルは以下のコマンドを実行すると表示できます

# ダウンロード済みモデルを一覧表示
ollama list

以下はコマンドの実行です

モデルの削除

モデルの容量が多いため不要なモデルは以下のコマンドで削除することができます

# 不要なモデルを削除してストレージを解放
ollama rm qwen3.5:9b

以下はコマンドの実行です

6. OllamaのGUI（Open WebUI）の使い方

Ollamaはコマンドライン操作が基本ですが、Open WebUIを使えばChatGPTのようなブラウザUIでAIと対話できます。

Open WebUIとは

Open WebUIはOllamaのフロントエンドとして設計されたオープンソースのWebアプリケーションです。ChatGPT風のインターフェースでローカルAIを快適に利用できます。

主な機能：

チャット形式での対話
複数モデルの同時比較
画像入力（マルチモーダル）
Web検索との連携
RAG（文書検索拡張生成）
カスタムプロンプト管理

インストール方法（Docker使用）

Dockerがインストールされた環境で以下を実行します：

# GPU（NVIDIA）ありの場合
docker run -d -p 3000:8080 --gpus all --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:cuda

# CPUのみ（GPU不要）の場合
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

Dockerがインストールされていない場合は、Dockerをインストールしてください。

Windows

Windows に Docker Desktop をインストール — Docker-docs-ja 24.0 ドキュメント

Mac

Linux

起動後、ブラウザで http://localhost:3000 にアクセスします。

基本的な使い方

1. チャットを始める

ブラウザで http://localhost:3000 を開く
管理者用のアカウントを作成します

3. チャット画面が表示され、メッセージを送信をできるようになります

メッセージを送信した例です

2. モデルの管理

Ollamaのダウンロードしたモデルの切り替えは以下の画面から切り替えることができます

3. 複数モデルの比較

チャット画面 → モデル選択欄の「+」ボタンをクリック → 追加モデルを選択

同じプロンプトに対して複数モデルの回答を並べて比較できます。

4. Web検索との連携

管理者パネル→ 設定 → ウェブ検索 を有効化

検索プロバイダーに Ollamaを選択APIキーを入れます

管理者パネル → 設定→ モデル

対象モデルを選択 → ウェブ検索にチェックを入れる

チャット画面に「Web Search」ボタンが表示される

ボタンをオンにして質問するとWebで最新情報も参照しながら回答します

5. 画像の分析

Qwen3.5はビジョン（画像理解）機能を持っています。

チャット入力欄のクリップアイコンから画像をアップロード

2. 「この画像について説明してください」などのメッセージを送信

3. モデルが画像の内容を分析して回答

今回はFREESのトップページの画像を連携しましたが、画像について適切な回答をしています

まとめ

項目	内容
Qwen3.5	Alibaba CloudのオープンソースLLM、0.8B〜397Bまでの豊富なラインナップ
Ollama	ローカルでLLMを動かすツール。簡単操作だがセキュリティ設定に注意
ローカル実行	`ollama run qwen3.5:9b` 1コマンドで開始
GUI	Open WebUIでChatGPT風のブラウザ操作が可能

Qwen3.5とOllamaを組み合わせることで、無料・プライベート・オフラインで高性能なAIアシスタントを手元に構築できます。スモールシリーズ（0.8B〜9B）は一般的なPCでも動作するため、まずは qwen3.5:4b や qwen3.5:9b から試してみることをおすすめします。

目次

1. Qwen3.5の概要

主な特徴

リリースの経緯

2. Ollamaの概要

Ollamaとは

3. Qwen3.5 モデルサイズ一覧

スモールシリーズ（ローカル環境向け）

ミディアムシリーズ（高性能サーバー向け）

フラッグシップシリーズ（クラウド・大規模向け）

ローカル実行の目安（RAM/VRAM）

4. Ollamaのインストール方法

macOS

Versionの確認方法

Windows

Version確認方法

Linux

5. Qwen3.5のインストールと起動

モデルの取得と実行（ollama run）

qwen3.5:9bの例

モデルのダウンロードのみ（ollama pull）

モデル一覧の確認

モデルの削除

6. OllamaのGUI（Open WebUI）の使い方

Open WebUIとは

インストール方法（Docker使用）

Windows

Mac

Linux

基本的な使い方

1. チャットを始める

2. モデルの管理

3. 複数モデルの比較

4. Web検索との連携

5. 画像の分析

まとめ

関連記事

参考リンク

コメント