Qwen3.6:27b MTP を Ollama で動かす完全ガイド

Qwen3.6は、Alibaba CloudのQwenチームが2026年にリリースした大規模言語モデル(LLM)シリーズです。なかでも27Bモデルには、推論速度を大きく引き上げる MTP(Multi-Token Prediction) に対応したビルドが用意されており、Ollamaを使えばローカル環境で手軽に動かすことができます。

本記事では、MTPとは何かという技術的な背景から、Ollamaでのインストール、MTP対応ビルドである qwen3.6:27b-mtp-q4_K_M を起動して動作を確認し、通常版の qwen3.6:27b と生成速度を比較するところまでを順を追って解説します。比較は実際に手元の環境で計測した結果を掲載しています。

Qwen3.6:27b の概要

Qwen3.6:27bは、約270億パラメータの密集(Dense)モデルです。コーディング、数学、長文の読解といった幅広いタスクで高い性能を発揮しつつ、一般的なコンシューマー向けGPUでもローカル実行できる現実的なサイズに収まっている点が特徴です。

Qwen3.6:27bの記事はこちら

Qwen3.6-27B+ Ollama でローカルAIを動かす完全ガイド
Qwen3.6の概要Qwen3.6は、Alibaba CloudのQwenチームが2026年4月にリリースした最新の大規模言語モデル(LLM)シリーズです。Qwen3.5シリーズの好評を受けて、コミュニティからのフィードバックを基に開発され…
項目内容
モデル名(通常版)qwen3.6:27b
モデル名(MTP版)qwen3.6:27b-mtp-q4_K_M
パラメータ数約27B(Dense)
量子化Q4KM
開発元Alibaba Cloud Qwenチーム
主な用途コード生成、文章生成、要約、対話
特記事項MTP対応ビルドで推論を高速化

MTP(Multi-Token Prediction)とは

MTPは、複数のトークンを同時に予測することで推論(生成)速度を引き上げる、投機的デコーディング(Speculative Decoding)の一種です。

通常のLLMは、トークンを1つ生成するたびに1回の前向き計算(フォワードパス)を行います。これに対してMTPでは、次のように動作します。

  1. ドラフトとして、これから出力される複数の将来トークンをまとめて予測する
  2. メインモデルが、その予測されたトークンを 並列に 検証する
  3. 検証を通過したトークンをそのまま採用し、必要なフォワードパスの回数を削減する

この仕組みにより、出力結果の精度を変えることなく生成だけを高速化できる点がMTPの大きな利点です。Unslothのドキュメントでは、出力の正確性を保ったまま およそ1.4〜2.2倍 の高速化が得られるとされています。

MTPによる高速化の目安

モデルの種類高速化の目安
Dense(密集)モデル約1.4〜2倍
MoE(Mixture of Experts)モデル約1.15〜1.25倍

Qwen3.6:27bはDenseモデルであるため、MTPの恩恵を比較的大きく受けられるカテゴリに該当します。参考値として、高性能GPU環境ではQwen3.6-27BのMTP版で毎秒160トークン前後の生成速度が報告されています。

メモリ要件に関する注意

MTPはドラフト予測のための追加情報を保持するため、標準のGGUFモデルと比べて おおよそ1GB多くのVRAM/RAM を必要とします。導入前に、利用する環境のメモリに余裕があるかを確認しておくとよいでしょう。

動作環境

Qwen3.6:27b MTPを快適に動かすための目安は次のとおりです。

項目推奨
GPU VRAM24GB以上だと全レイヤーをGPUに載せやすい
システムRAM32GB以上(GPUに載りきらない分はRAMで実行)
ストレージ17GB前後(Q4KM版)+数GBの空き
対応OSmacOS / Windows / Linux

Q4KM版のモデルサイズは約17GBです。VRAMが少ない環境でも、システムRAMが十分にあればCPU中心で動作します(本記事の計測もVRAM 4GB・RAM 96GBの環境でCPU実行しています)。なお、MTPはドラフト予測のための情報を保持するため、通常のGGUFより おおよそ1GB多くのメモリ を必要とします。

Ollamaのインストール方法

OllamaはmacOS、Windows、Linuxに対応しています。利用環境に合わせてインストールしてください。

macOS

Ollama公式サイト からインストーラーをダウンロードし、画面の指示に従ってインストールします。インストール後、ターミナルで次のコマンドを実行し、バージョンが表示されれば成功です。

ollama --version

Windows

  1. https://ollama.com/download からEXEインストーラーをダウンロード
  2. ダウンロードした .exe ファイルをダブルクリックして「install」ボタンをクリック

3. スタートメニューからOllamaを起動

Version確認方法

以下のコマンドを実行するとOllamaのバージョンが確認できます

ollama --version

Linux

次のコマンドを実行すると、インストールスクリプトが自動でセットアップを行います。

curl -fsSL https://ollama.com/install.sh | sh

Qwen3.6:27b MTP の導入と起動

Ollamaの準備ができたら、モデルを取得して起動します。

モデルの取得

まずはMTP対応ビルドをダウンロードします。タグには量子化形式まで含めて qwen3.6:27b-mtp-q4_K_M を指定します。

ollama pull qwen3.6:27b-mtp-q4_K_M

あとで速度を比較するために、通常版も取得しておきます。

ollama pull qwen3.6:27b

モデルの起動

ダウンロードが完了したら、次のコマンドで対話を開始できます。

ollama run qwen3.6:27b-mtp-q4_K_M

起動すると入力待ち(Send a message)の状態になります。試しにメッセージを送ってみましょう。

>>> こんにちは

動作確認とベンチマーク(実測)

MTPの効果を確認するには、同じプロンプト・同じパラメータでMTP版と通常版の生成速度(トークン/秒)を比較するのが分かりやすい方法です。手軽に試すなら --verbose を付けて起動し、応答の末尾に表示される eval rate(毎秒のトークン数)を見比べます。

ollama run qwen3.6:27b-mtp-q4_K_M --verbose

より厳密に比較したい場合は、HTTP APIを使い、シード値と生成トークン数を固定して計測します。次のスクリプトは生成統計(eval_counteval_duration)からトークン/秒を算出します。

$body = @{
  model  = "qwen3.6:27b-mtp-q4_K_M"
  prompt = "クイックソートのアルゴリズムをPythonで実装し、計算量とともに動作原理を説明してください。"
  stream = $false
  options = @{ seed = 7; temperature = 0.7; num_predict = 200 }
} | ConvertTo-Json
$r = Invoke-RestMethod -Uri http://localhost:11434/api/generate -Method Post -Body $body -ContentType "application/json"
"{0} tok/s" -f [math]::Round($r.eval_count / ($r.eval_duration / 1e9), 2)

modelqwen3.6:27b に差し替えて同じプロンプトを流せば、MTPの有無による差を直接比較できます。

計測環境

項目内容
システムRAM96GB
実行方式CPU中心(VRAMが小さいためGPUオフロードは最小限)
量子化Q4KM
生成トークン数200トークン固定

計測結果

同一プロンプトを2種類、それぞれシードを固定して計測した結果は次のとおりです。

プロンプトqwen3.6:27b(通常版)qwen3.6:27b-mtp-q4KM(MTP版)高速化
再帰/ループ実装の説明1.54 tok/s2.20 tok/s約1.43倍
クイックソートの実装と解説1.56 tok/s2.31 tok/s約1.48倍

今回はほぼCPU実行という条件です。それでもMTP版は通常版に対して 約1.4〜1.5倍 の生成速度を示しました。これはUnslothが示すDenseモデルの高速化の目安(約1.4〜2倍)とよく一致します。GPUに十分なVRAMがある環境では、さらに大きな差が期待できます。

トラブルシューティング:VRAMが小さい環境で起動に失敗する場合

VRAMの小さいGPUでは、Ollamaがモデルの一部をGPUに載せようとした際にメモリ確保へ失敗し、llama-server process has terminatedout-of-memory during startup といったエラーで起動できないことがあります。今回のVRAM 4GBの環境でも、デフォルト設定では起動時にクラッシュしました。

この場合は、GPUへ載せるレイヤー数を0にしてCPU実行に固定すると安定します。APIから指定する場合は optionsnum_gpu を渡します。

$body = @{
  model  = "qwen3.6:27b-mtp-q4_K_M"
  prompt = "こんにちは"
  stream = $false
  options = @{ num_gpu = 0 }
} | ConvertTo-Json
Invoke-RestMethod -Uri http://localhost:11434/api/generate -Method Post -Body $body -ContentType "application/json"

システムRAMに十分な余裕があれば、CPU実行でも問題なく動作します。GPUを活用したい場合は、載せるレイヤー数を少しずつ増やして、VRAMに収まる範囲を探るとよいでしょう。

まとめ

本記事では、qwen3.6:27b-mtp-q4_K_M をOllamaで動かし、通常版の qwen3.6:27b と生成速度を比較する手順を解説しました。

MTPは複数トークンを先読みして並列に検証する投機的デコーディングであり、出力の精度を保ったまま生成速度を引き上げられる点が大きな魅力です。実際にVRAM 4GBのCPU中心という決して恵まれない環境で計測しても、MTP版は通常版の 約1.4〜1.5倍 の生成速度を記録しました。DenseモデルであるQwen3.6:27bはMTPの恩恵を受けやすく、追加で必要なメモリも約1GB程度に収まります。

ローカルで高速かつ高精度なAIを動かしたい方は、ぜひ qwen3.6:27b-mtp-q4_K_M を試し、手元の環境で通常版との差を計測してみてください。

参考

Qwen3.6 – How to Run Locally | Unsloth Documentation
Run the new Qwen3.6-27B and 35B-A3B models locally!

コメント

タイトルとURLをコピーしました