Qwen3.6 35B-A3B vs 27B UD AI用途で比較｜M5 Pro 64GBの個人検証から見た選び方

Qwen3.6 は、Alibaba の Qwen Team が公開する大規模言語モデルファミリーである。その中で MoE 型の 35B-A3B と Dense 型の 27B は、同じ「Qwen3.6」でも設計が分かれる。

海外の Reddit コミュニティ（r/LocalLLaMA）に、MacBook Pro M5 Pro 64GB で Qwen3.6 35B-A3B（MoE 型）と27B（Dense 型）を同じ機材で比較した投稿があった。報告では速度差が約8倍に開き、さらにコード生成・バグ検出を含む評価で 35B-A3B の品質が 27B を上回ったという。「大きいほうが速く、投稿者の4タスク評価では品質面でも上回った」という直感に反する結果で、サイズだけでモデルを選んでいた場合は前提が変わる。本記事はこの投稿を起点に、両モデルの違い・選び方・当サイトの NVIDIA 環境での実測との対比までを整理する。

この記事の要点

35B-A3B（MoE）は M5 Pro 64GB で 27B（Dense）より約8倍速いという投稿者報告（個人の検証 1 件）
コード生成・バグ検出を含む4タスクでは 35B-A3B が品質で上回ったとされるが、これは個人検証の限定結果で、Qwen 公式ベンチではコーディング系の多くで 27B が上回る
速度差は MoE（推論時約3B 活性）と Dense（全体処理）の構造差が主だが、4bit と6bit で量子化条件も違い、Apple Silicon の帯域だけが原因とは断定できない

Qwen3.6 35B-A3B と 27B のスペック比較
35B-A3B（MoE）が速い理由とAI用途での強み
27B（Dense）の特徴と本来期待される強み
AI用途別の選び方：当サイトのNVIDIA環境との対比
まとめ：サイズだけでは選べない
参考資料

Qwen3.6 35B-A3B と 27B のスペック比較

Reddit 投稿者の検証環境と公開情報をもとに、両モデルの基本仕様を並べる。数値の多くは投稿者の自己報告で、当サイトで再現したものではない。なお投稿で比較された 27B は Unsloth Dynamic 量子化版（27B UD）の MLX 6bit である。

項目	Qwen3.6 35B-A3B	Qwen3.6 27B
アーキテクチャ	MoE（Mixture of Experts）	Dense（密結合）
総パラメータ数	約350億	約270億
アクティブパラメータ	約30億（推論時）	約270億（推論時）
量子化（検証時）	MLX 4bit	MLX 6bit
モデルサイズ	約21.7GB（投稿者報告）	約30.5GB（投稿者報告）
128Kコンテキスト時RAM	約27GB（投稿者報告）	約38GB（投稿者報告）
速度（800トークン）	約72トークン/秒（投稿者報告）	約9トークン/秒（投稿者報告）
AI用途の目安	対話・コード生成・要約全般	同左（M5 Pro 環境では速度が課題）

サイズが大きい 35B のほうが軽い 27B より約8倍速いのは直感に反するが、これは MoE と Dense という設計の違いから生じている。Reddit でも「なぜ大きいほうが速いのか」という質問が複数ついていた。

ただし 35B-A3B は4bit、27B は6bit と量子化レベルが揃っていない点には注意したい。同じ量子化なら数字は変わり得るが、投稿者は実用上選ぶ構成同士を比べたものと見られる。

35B-A3B（MoE）が速い理由とAI用途での強み

総パラメータが大きくても推論時は速い、という MoE の挙動は Qwen3.6 固有のものではなく、MoE 全般に共通する。仕組みを押さえれば、今後出てくる他社モデルの選定にも応用が効く。

総パラメータ数とアクティブパラメータ数の違い

MoE モデルは内部に複数の専門家ネットワークを持ち、入力ごとに一部だけを呼び出す。Qwen3.6 35B-A3B の「A3B」は「アクティブ30億パラメータ」を指し、推論時にトークンごとに実際に計算されるのは約30億分だけである。残りは VRAM や RAM に置かれたまま、呼ばれたときだけ動く。

一方の 27B は Dense 型で、入力ごとに全270億パラメータを毎回計算する。サイズ表記は27Bでも、計算負荷は270億分まるごとになる。

Dense モデルが「全パラメータを毎回呼ぶ」コスト

トークンを1つ生成するごとに、Dense は全パラメータを通る必要があり、メモリ帯域と計算リソースを総量で消費する。MoE は選ばれた30億分だけが回るため、単純計算では生成速度に大きな差が出る。投稿者の約8倍という数字は、この差が Apple Silicon 環境で素直に出た水準と言える。

Apple Siliconとの相性

MacBook Pro M5 Pro のような Apple Silicon 機は Unified Memory で広帯域なメモリ転送を実現しているが、絶対値ではディスクリート GPU の GDDR7 ほどの帯域はない。そのため「毎回全部呼び出す」Dense は帯域不足でボトルネックになりやすく、「一部だけ呼ぶ」MoE との差が広がる。

逆に言えば、ハイエンドの NVIDIA GPU で両者を比較すると、ここまで極端な8倍差にはならない可能性が高い。また今回の比較は 35B-A3B が4bit、27B が6bit と量子化条件も違うため、速度差を Apple Silicon のメモリ帯域だけに帰すことはできない。Apple Silicon の Unified Memory 環境で、MoE の軽さが際立った結果という側面は押さえておきたい。

MoE モデルは「総パラメータ数」と「アクティブパラメータ数」を分けて読む。VRAM/RAM 消費は総パラメータ量と量子化サイズに近く、推論速度はアクティブ量・実装・メモリ帯域に大きく左右される。GPU を選ぶときはこの2つを別々に見るのが基本になる。

27B（Dense）の特徴と本来期待される強み

27B が M5 Pro 64GB で遅かったのは事実だが、Dense 型が一概に弱いわけではない。設計上の強みも整理しておく。

出力の一貫性と推論深度

一般論として、Dense モデルは全パラメータを毎回参照する分、文脈全体に均一に推論を働かせやすいとされてきた。MoE は一部の専門家しか呼ばれないため、扱う話題が偏ると性能差が出るリスクが指摘されてきた。

ところが今回の Reddit 投稿では、コード生成・バグ検出を含む4タスク評価で 35B-A3B が 27B を上回ったという。投稿者は「Dense が深い推論で勝つはず」という従来観に対して「期待していた優位は出なかった」と述べている。

ただし投稿者自身が「専門家ではない」「設定が最適とは限らない」と断っており、4タスクという少ないサンプルでは「35B-A3B が 27B より全面的に優れている」と一般化はできない。

むしろ Qwen 公式の Qwen3.6-27B モデルカードでは、コーディング系の主要ベンチで 27B（Dense）が 35B-A3B（MoE）を上回る項目が多い。たとえば SWE-bench Verified は 27B が 77.2 に対し 35B-A3B が 73.4、Terminal-Bench 2.0 は 59.3 対 51.5、SkillsBench（Avg5）は 48.2 対 28.7 で、いずれも 27B が上だ（いずれも開発元の自己申告値）。Reddit の4タスクで 35B-A3B が品質で上回ったのは限定的な結果で、品質面で 35B-A3B が一般に上とは言えない。

速さは 35B-A3B（MoE）が圧倒（M5 Pro 64GB・投稿者報告）。一方 Qwen 公式ベンチ（開発元の自己申告値）では SWE-bench・Terminal-Bench・SkillsBench いずれも 27B（Dense）が上回り、品質の優劣は条件次第。

NVIDIA GPU環境では実用性が変わる

NVIDIA のディスクリート GPU は絶対的なメモリ帯域が Apple Silicon より高く、Dense の弱点である「全パラメータ毎回呼び出し」のコストを吸収しやすい。RTX 5080 や RTX 4090 クラスの環境で 27B クラスを動かす場合、M5 Pro ほどの速度差にはならないと見られる。ただしこれは理屈上の見立てであり、同一量子化・同一ランタイムでの実測比較ではない。

ただし VRAM 16GB では 27B の6bit量子化版（投稿者報告で約30.5GB）はそのまま載らないため、より厳しい量子化か分割ロードが要る。この取り回しの点でも、実用上は 35B-A3B のほうが有利になりやすい。

サンプル数の少なさへの留意

Reddit のコメントでも「タスクが簡単すぎて両モデルの差が出にくい」「両方失敗するレベルのタスクを混ぜるべき」という指摘が出ている。コードレビューや長文生成、論理パズルなど別の評価軸では、結果が変わる可能性も視野に入れておきたい。

「M5 Pro 64GB でこの4タスクを試した範囲では」という限定条件付きで読むのが正確である。

AI用途別の選び方：当サイトのNVIDIA環境との対比

ローカル LLM の選び方は、ハードウェアとモデルアーキテクチャの組み合わせで結論が変わる。当サイトの検証環境（RTX 5080 16GB + RTX 5060 Ti 16GB / i7-14700F / RAM 96GB）での実測も交えて、用途別に整理する。

コード生成・バグ検出がメインなら → 35B-A3B（MoE）。M5 Pro 64GB なら、投稿者の検証結果からも 35B-A3B を優先したい。約8倍の速度差は体感が大きく変わる水準で、エディタ統合ツールとの組み合わせでも実用域に入る。NVIDIA 環境でも、当サイトで同じ 35B-A3B（Q4_K_M 版）を実測したところ、RTX 5080 単体（16GB）で約68 tok/s、RTX 5060 Ti を足したデュアル構成で約124 tok/s だった（短文・think=false 条件・3回中央値）。MoE のメモリ効率の良さは Apple Silicon と NVIDIA で共通している。実測の詳細はQwen3.6-35B-A3B のローカル実行ガイドにまとめた。

長文生成・要約がメインなら → 35B-A3B（MoE）。投稿者は 35B-A3B で約70トークン/秒、27B は約9トークン/秒と報告している。ただし同投稿内の秒数とトークン数には整合しない箇所があり（9トークン/秒なら1200トークンは約133秒の計算になる）、厳密な所要時間ではなく投稿者環境での概算速度として読むのが安全だ。また 128K context 設定で動作している点は参考になるが、実際に 128K 近い入力を与えた長文ベンチではないため、長文入力時の速度低下や KV キャッシュ消費は別途検証が必要になる。

最大限の品質を狙うなら → NVIDIA 環境では高ビット量子化・FP8/NVFP4・マルチGPU分割。Qwen3.6-27B の公式モデルは BF16 で、重みだけで約54GB 級になるため、一般的な GeForce 単体での BF16 フル精度運用は現実的ではない（RTX 5090 でも 32GB）。M5 Pro 64GB で 27B を使うのは速度的に厳しく、NVIDIA でも RTX 5080 16GB 単体では Dense 27B の6bit版（約30GB 級）を載せきれない。デュアルGPU構成か VRAM 24GB 以上が要るが、24GB 単体でも KV キャッシュやコンテキスト分を加えると6bit版がそのまま収まらない場合があり、その際はより厳しい量子化か分割が前提になる。現実的には高ビット量子化（FP8/NVFP4 など）かマルチGPU分割で試すことになり、余裕を持たせるなら RTX 5090（32GB）級が安心だ（価格は時期と在庫で変動するため購入時に確認したい）。

ノート1台で完結させたいなら → M5 Pro 64GB での 35B-A3B 運用。追加 GPU なしで大容量の Unified Memory を1台で確保できるのが M5 Pro 64GB の利点で、35B-A3B との組み合わせはメモリ容量と速度を両立しやすい。構成や用途によっては NVIDIA デスクトップを別途組むより取り回しが良い場合もある（ただし新品の 64GB 構成は安価とは言いにくい）。高負荷時のサーマルやバッテリー駆動時間など、ノート PC 固有の制約は別途見ておきたい。

速度数値（トークン/秒）は量子化レベル・コンテキスト長・サンプリング設定で大きく変わります。投稿者報告の「72トークン/秒」「9トークン/秒」は4bit/6bit比較かつ128Kコンテキスト時の値で、ご自身の利用条件と異なる場合は再評価が必要です。

アーキテクチャの読み方	MoE はアクティブ量で速度を、Dense は総量で速度を見積もる
メモリ帯域	Apple Silicon は帯域で Dense が不利、NVIDIA GPU では差が縮む
量子化レベル	Q4/Q6 などの差で速度・品質は大きく変わる。同じアーキテクチャ比較でも量子化条件を揃えないと結論は変わり得る
コンテキスト長	128K をフルに使うなら RAM/VRAM に10GB以上の余裕を確保