Qwen3.5 + Ollama でローカルAIを動かす完全ガイド


目次

  1. Qwen3.5の概要
  2. Ollamaの概要
  3. Qwen3.5 モデルサイズ一覧
  4. Ollamaのインストール方法
  5. Qwen3.5のインストールと起動
  6. OllamaのGUI(Open WebUI)の使い方

1. Qwen3.5の概要

Qwen3.5は、中国のテクノロジー企業Alibaba Cloud(アリババクラウド)のQwenチームが開発・公開した大規模言語モデル(LLM)シリーズです。2026年初頭に段階的にリリースされ、モデルサイズと用途の幅広さで注目を集めています。

主な特徴

特徴詳細
マルチモーダル対応テキストだけでなく、画像入力にも対応(VLM)
長文コンテキスト最大 262,144トークン(262K)のネイティブコンテキストウィンドウ
多言語対応201言語をサポート(日本語含む)
推論モードデフォルトで推論(Reasoning)機能を内蔵
アーキテクチャQwen-Nextアーキテクチャ(GDNレイヤー採用)
ライセンスApache 2.0(商用利用可)

リリースの経緯

Qwen3.5は2026年にわたって3段階でリリースされました。

  • 2026年2月16日 – フラッグシップモデル(397B-A17B MoE)公開
  • 2026年2月24日 – ミディアムシリーズ(27B、35B-A3B、122B-A10B)公開
  • 2026年3月2日 – スモールシリーズ(0.8B〜9B)公開

初期の大規模モデルから小型モデルまで段階的にリリースすることで、研究者から一般ユーザーまで幅広い層での活用を実現しています。


2. Ollamaの概要

Ollamaとは

Ollamaは、LLaMA・Qwen・DeepSeek・MistralなどのオープンソースLLMをローカル環境で簡単に実行できるオープンソースツールです。クラウドサービスを使わずに自社・自分のハードウェア上でAIモデルを動かすことができます。

主な利点:

  • プライバシー保護:データが外部に送信されない
  • オフライン動作:インターネット接続不要
  • コスト削減:API課金が発生しない
  • 簡単な操作:1コマンドでモデルの取得・実行が可能

2025年7月30日には、macOSおよびWindows向けのネイティブデスクトップアプリが正式リリースされ、さらに使いやすくなりました。


3. Qwen3.5 モデルサイズ一覧

Qwen3.5は用途や計算リソースに合わせて選べる豊富なモデルラインナップを提供しています。

スモールシリーズ(ローカル環境向け)

モデル名パラメータ数特徴推奨用途
qwen3.5:0.8b0.8B(8億)超軽量、CPU動作可能組み込みデバイス、低スペックPC
qwen3.5:2b2B(20億)軽量、高速応答モバイル、エッジデバイス
qwen3.5:4b4B(40億)バランス型一般的なPC、日常タスク
qwen3.5:9b9B(90億)高品質、ローカル最適解ハイエンドPC、開発・研究

ミディアムシリーズ(高性能サーバー向け)

モデル名パラメータ数アーキテクチャ特徴
qwen3.5:27b27B(270億)Dense(密)高品質・低レイテンシ
qwen3.5:35b-a3b35B総数 / 3B有効化MoE(混合エキスパート)35Bの知識を3Bの計算コストで利用
qwen3.5:122b-a10b122B総数 / 10B有効化MoEフロンティア級の性能

フラッグシップシリーズ(クラウド・大規模向け)

モデル名パラメータ数アーキテクチャ特徴
qwen3.5:397b-a17b397B総数 / 17B有効化MoE最上位モデル、GPT-4クラスの性能

MoE(Mixture of Experts)とは: モデル全体の巨大なパラメータのうち、推論時には一部のパラメータのみを「活性化」する仕組みです。例えば397Bモデルでも推論時は17Bしか使わないため、計算コストを大幅に削減できます。

ローカル実行の目安(RAM/VRAM)

モデル必要メモリ目安
0.8B2GB以上
2B4GB以上
4B6GB以上
9B8〜16GB(推奨16GB)
27B16〜32GB

4. Ollamaのインストール方法

macOS

必要OS: macOS 14 Sonoma 以降

  1. https://ollama.com/download/mac からDMGファイルをダウンロード
  2. DMGをマウントし、Ollamaアプリを Applications フォルダにドラッグ&ドロップ
  3. アプリを起動するとメニューバーにアイコンが表示される
Versionの確認方法

アプリケーションからターミナルをクリックします

以下のコマンドを実行してバージョンが表示されれば正しくインストールされています

# インストール確認
ollama --version

Windows

必要OS: Windows 10 以降

  1. https://ollama.com/download からEXEインストーラーをダウンロード
  2. ダウンロードした .exe ファイルをダブルクリックして「install」ボタンをクリック
  1. 画面の指示に従いインストールを完了
  2. スタートメニューからOllamaを起動

Version確認方法

以下のコマンドを実行するとOllamaのバージョンが確認できます

ollama --version

Linux

ターミナルで以下の1コマンドを実行するだけです:

curl -fsSL https://ollama.com/install.sh | sh

Linuxにインストールすると、ollama.service というsystemdサービスが自動作成され、OS起動時に自動的にOllamaが起動します。

# サービスの状態確認
sudo systemctl status ollama

# サービスの手動起動
sudo systemctl start ollama

# インストール確認
ollama --version

5. Qwen3.5のインストールと起動

Ollamaをインストールしたら、以下のコマンドでQwen3.5を利用できます。

モデルの取得と実行(ollama run)

ollama run コマンドはモデルが未取得の場合は自動的にダウンロードし、そのままチャットを開始します。

# 9Bモデルを起動(推奨:一般的なPC向け)
ollama run qwen3.5:9b

# 4Bモデルを起動(軽量版)
ollama run qwen3.5:4b

# 2Bモデルを起動(超軽量版)
ollama run qwen3.5:2b

# 0.8Bモデルを起動(最小版)
ollama run qwen3.5:0.8b

# タグ指定なし(デフォルト最新版)
ollama run qwen3.5

チャット画面が起動したら、プロンプトに質問を入力して Enter で送信できます。終了するには /bye と入力します。

qwen3.5:9bの例

以下はqwen3.5:9bのインストールを実行している状態です

インストールが完了すると「Send a message (/? for help)」と表示されます

>>>」と表示されている場合、ここにメッセージを入力することができます

以下は「こんにちは」と入力した例です

/bye」と入力して「Enter」キーを押すとOllamaが終了します

モデルのダウンロードのみ(ollama pull)

runはモデルを実行するコマンドでモデルがダウンロードされていない場合、ダウンロードを同時に実行するコマンドでした。

モデルだけダウンロードしたい場合は以下のコマンドを実行するとモデルだけダウンロードできます

# モデルを事前ダウンロードしておく
ollama pull qwen3.5:9b

以下はコマンドの実行です

モデル一覧の確認

ダウンロードしたモデルは以下のコマンドを実行すると表示できます

# ダウンロード済みモデルを一覧表示
ollama list

以下はコマンドの実行です

モデルの削除

モデルの容量が多いため不要なモデルは以下のコマンドで削除することができます

# 不要なモデルを削除してストレージを解放
ollama rm qwen3.5:9b

以下はコマンドの実行です

6. OllamaのGUI(Open WebUI)の使い方

Ollamaはコマンドライン操作が基本ですが、Open WebUIを使えばChatGPTのようなブラウザUIでAIと対話できます。

Open WebUIとは

Open WebUIはOllamaのフロントエンドとして設計されたオープンソースのWebアプリケーションです。ChatGPT風のインターフェースでローカルAIを快適に利用できます。

主な機能:

  • チャット形式での対話
  • 複数モデルの同時比較
  • 画像入力(マルチモーダル)
  • Web検索との連携
  • RAG(文書検索拡張生成)
  • カスタムプロンプト管理

インストール方法(Docker使用)

Dockerがインストールされた環境で以下を実行します:

# GPU(NVIDIA)ありの場合
docker run -d -p 3000:8080 --gpus all --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:cuda

# CPUのみ(GPU不要)の場合
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

起動後、ブラウザで http://localhost:3000 にアクセスします。

基本的な使い方

1. チャットを始める

  1. ブラウザで http://localhost:3000 を開く
  2. 管理者用のアカウントを作成します

3. チャット画面が表示され、メッセージを送信をできるようになります

メッセージを送信した例です

2. モデルの管理

Ollamaのダウンロードしたモデルの切り替えは以下の画面から切り替えることができます

3. 複数モデルの比較

チャット画面 → モデル選択欄の「+」ボタンをクリック → 追加モデルを選択

同じプロンプトに対して複数モデルの回答を並べて比較できます。

4. Web検索との連携

  1. 管理者パネル設定ウェブ検索 を有効化

検索プロバイダーに Ollamaを選択APIキーを入れます

管理者パネル設定モデル

対象モデルを選択ウェブ検索にチェックを入れる

チャット画面に「Web Search」ボタンが表示される

ボタンをオンにして質問するとWebで最新情報も参照しながら回答します

5. 画像の分析

Qwen3.5はビジョン(画像理解)機能を持っています。

  1. チャット入力欄のクリップアイコンから画像をアップロード

2. 「この画像について説明してください」などのメッセージを送信

3. モデルが画像の内容を分析して回答

今回はFREESのトップページの画像を連携しましたが、画像について適切な回答をしています


まとめ

項目内容
Qwen3.5Alibaba CloudのオープンソースLLM、0.8B〜397Bまでの豊富なラインナップ
OllamaローカルでLLMを動かすツール。簡単操作だがセキュリティ設定に注意
ローカル実行ollama run qwen3.5:9b 1コマンドで開始
GUIOpen WebUIでChatGPT風のブラウザ操作が可能

Qwen3.5とOllamaを組み合わせることで、無料・プライベート・オフラインで高性能なAIアシスタントを手元に構築できます。スモールシリーズ(0.8B〜9B)は一般的なPCでも動作するため、まずは qwen3.5:4bqwen3.5:9b から試してみることをおすすめします。


関連記事

参考リンク

コメント

タイトルとURLをコピーしました