Qwen 3.6 35B A3B vs 27B UD AI用途で比較|M5 Pro 64GBの実測から見えた選び方

Qwen 3.6 35B A3B vs 27B UD AI用途で比較|M5 Pro 64GBの実測から見えた選び方 アイキャッチ GPU・グラフィックボード

Qwen 3.6とは、Alibaba Qwen Teamが公開する大規模言語モデルファミリーである。

海外のRedditコミュニティ(r/LocalLLaMA)で、MacBook Pro M5 Pro 64GB環境でQwen 3.6 35B A3B(MoE型)と27B UD(Dense型)を直接比較した投稿が話題になっています。同じハードで動かしたのに速度差が桁違いで、しかも品質まで35B A3Bが上回ったという報告。MoE vs Denseの常識が揺らぐ内容で、ローカルLLMを「サイズだけで選んでいた」読者には買い替え判断を左右しかねない材料となるでしょう。本記事ではこの投稿を起点に、35B A3Bと27B UDの実力差・選び方・当サイトのNVIDIA環境との対比までを整理します。

この記事の要点

  • 35B A3B(MoE)はM5 Pro 64GBで27B UD(Dense)より約8倍高速という報告
  • コード生成・バグ検出タスクでも35B A3Bが品質で27B UDを上回ったとの検証結果
  • Apple Silicon環境ではMoE構造のメモリ帯域効率の良さが速度差を生む構造的な要因

Qwen 3.6 35B A3B と 27B UD のスペック比較

Reddit投稿者の検証環境と公開情報をもとに、両モデルの基本仕様を整理します。

項目 Qwen 3.6 35B A3B Qwen 3.6 27B UD
アーキテクチャ MoE(Mixture of Experts) Dense(密結合)
総パラメータ数 約350億 約270億
アクティブパラメータ 約30億(推論時) 約270億(推論時)
量子化(検証時) MLX 4bit MLX 6bit
モデルサイズ 約21.7GB(投稿者報告) 約30.5GB(投稿者報告)
128Kコンテキスト時RAM 約27GB(投稿者報告) 約38GB(投稿者報告)
速度(800トークン) 約72トークン/秒(投稿者報告) 約9トークン/秒(投稿者報告)
AI用途の目安 対話・コード生成・要約全般 同左(M5 Pro環境では速度に課題)

注目したいのは、サイズが大きい35Bの方が、軽い27Bより8倍速く動いたという構造です。直感に反するこの現象が、MoEとDenseという2つの設計方針の違いから生じています。Reddit上でも「なぜサイズが大きい方が速いのか」という質問が複数寄せられている状況。

ちなみに35B A3Bは4bit量子化、27B UDは6bit量子化で比較されている点には注意が必要。同じ量子化レベルでは数字が変わる可能性がありますが、投稿者は「実用上選ぶ構成同士の比較」を意図したと見られます。

35B A3B(MoE)が速い理由とAI用途での強み

MoE構造のモデルが「総パラメータ数が大きくても推論時は速い」のは、Qwen 3.6固有の話ではなく業界共通の挙動。ここを理解できれば、今後出てくる他社モデルの選定にも応用が効きます。

総パラメータ数とアクティブパラメータ数の違い

MoEモデルは、内部に複数の専門家ネットワークを持ち、入力ごとに一部だけを呼び出す仕組みになっています。Qwen 3.6 35B A3Bの「A3B」表記が示すのは「アクティブ30億パラメータ」という意味で、推論時に実際に計算されるのはこの30億分のみ。残りはVRAMやRAMに置かれたまま、呼ばれた時だけ起き上がる構造。

一方の27B UDはDense型で、入力ごとに全270億パラメータを毎回計算します。サイズ表記は27Bでも、計算負荷は数字通りの270億分まるごと、というわけです。

Dense モデルが「全パラメータを毎回呼ぶ」コスト

トークン1つ生成するごとに、Denseは全パラメータを通る必要があり、メモリ帯域と計算リソースを総量で消費します。MoEは選ばれた30億分だけが回るため、トークン生成速度は単純計算で9倍近く差が出る可能性。投稿者の8倍という数字は、この理論値に近い水準と言えるでしょう。

Apple Siliconとの相性

MacBook Pro M5 ProのようなApple Silicon機は、Unified Memoryで広帯域なメモリ転送を実現していますが、絶対値ではディスクリートGPUのGDDR7ほどの帯域はありません。だからこそ「毎回全部呼び出す」Denseは帯域不足でボトルネック化しやすく、「一部だけ呼ぶ」MoEとは差が広がる構造。

逆に言えば、ハイエンドのNVIDIA GPUで両方を比較すると、ここまで極端な8倍差にはならない可能性が高いと考えられます。Apple Siliconだから際立った結果という側面は留意すべき点。

MoEモデルは「総パラメータ数」と「アクティブパラメータ数」を分けて読む。VRAM消費は総量に近く、推論速度はアクティブ量に依存します。GPUを選ぶときはこの2軸で見るのが基本姿勢。

27B UD(Dense)の特徴と本来期待される強み

27B UDがM5 Pro 64GBで遅かった事実は明確ですが、Dense型が一概に弱いわけではありません。設計上の強みも整理しましょう。

出力の一貫性と推論深度

一般論として、Denseモデルは全パラメータを毎回参照する分、文脈全体に対して均一に推論を働かせやすいとされてきました。MoEは一部の専門家しか呼ばれないため、扱う話題が偏ると性能差が出るリスクが指摘されてきた経緯。

ところが今回のReddit投稿では、コード生成・バグ検出を含む4タスク評価で35B A3Bが27B UDを上回ったという結果。投稿者は「Denseが深い推論で勝つはず」という従来観に対して「期待していた優位は出なかった」と述べています。

ただし投稿者自身が「専門家ではない」「設定が最適とは限らない」と断っており、4タスクという少ないサンプル数では「35B A3Bが27B UDより全面的に優れている」と一般化はできない、というのが筆者の見方。

NVIDIA GPU環境であれば実用性は変わる可能性

NVIDIAのディスクリートGPUは絶対的なメモリ帯域がApple Siliconより高く、Denseの欠点である「全パラメータ毎回呼び出し」のコストを吸収しやすい構造。RTX 5080やRTX 4090クラスのVRAM 16GB-24GB環境で27Bクラスを動かす場合、M5 Proほどの速度差にはならないと見られます。

ただしVRAM 16GBで27B UDの6bit量子化版(約30.5GB)はそのままでは載らないため、より厳しい量子化や分割ロードが必要。この点でも実用上の取り回しは35B A3Bの方が有利な状況。

サンプル数の少なさへの留意

Reddit上のコメントでも「タスクが簡単すぎて両モデルの差が出にくい」「両方失敗するレベルのタスクを混ぜるべき」という指摘が出ています。コードレビューや文学的な長文生成、論理パズルなど、別の評価軸では結果が変わる可能性も視野に入れておくべきでしょう。

「M5 Pro 64GBでこの4タスクを試した範囲では」という限定条件付きで読むのが正確。

AI用途別おすすめ:当サイトのNVIDIA環境との対比から判断

ローカルLLMの選び方は、ハードウェアとモデルアーキテクチャの組み合わせで結論が変わります。当サイトの検証環境(RTX 5080 16GB + RTX 5060 Ti 16GB / i7-14700F / RAM 96GB)での実測も交えて、用途別に断言します。

コード生成・バグ検出がメインなら → 35B A3B(MoE) M5 Pro 64GBユーザーであれば、投稿者の検証結果から見ても35B A3Bを優先すべきと考えます。速度8倍は体感が劇的に変わる水準で、エディタ統合ツールとの組み合わせでも実用域。NVIDIA環境のVRAM 16GBクラスでも、当サイトの検証環境でqwen3.5:35b-a3b(同系統のMoEモデル)が約14.4トークン/秒(VRAM 15.4GB使用、消費電力61W)で動作した実績があり、MoE構造のメモリ効率の良さは共通しています。

長文生成・要約がメインなら → 35B A3B(MoE) 長いコンテキストでも、MoEは生成速度が安定しやすい構造。投稿者の1200トークン生成でも約70トークン/秒を維持しており、長文処理に対する耐性は高い見込み。27B UDの9トークン/秒では1200トークンに70秒以上かかる計算で、実用性に課題があると言えるでしょう。

最大限の品質・推論深度を求めるなら → NVIDIA環境で27B UDか35Bフル精度 M5 Pro 64GBで27B UDを使うのは速度的に厳しい局面ですが、NVIDIA RTX 5080 16GB単体ではDense 27Bの6bit版を載せきれないため、デュアルGPU構成かVRAM 24GB以上のGPUが必要。RTX 3090(24GB中古10〜15万円)や、メモリ余裕を取るならRTX 5090(32GB)への投資が現実的。

予算を最優先するなら → M5 Pro 64GBでの35B A3B運用 新規にAI向けハードを揃えるなら、M5 Pro 64GB + 35B A3Bの組み合わせは「メモリ容量と速度の両立」という点で有力。NVIDIA RTX 5080 16GBを購入してデスクトップ環境を組むよりトータルコストが抑えられるケースも想定されます。ただし高負荷時のサーマルやバッテリーランタイムなど、ノートPC固有の制約は別途検討が必要な点。

速度数値(トークン/秒)は量子化レベル・コンテキスト長・サンプリング設定で大きく変動します。投稿者報告の「72トークン/秒」「9トークン/秒」は4bit/6bit比較かつ128Kコンテキスト時の値で、あなたの利用条件と異なる場合は再評価が必要。

詳細なQwen 3.6 35B A3Bのローカル実行手順や設定値については、姉妹サイトのQwen3.6-35B-A3B とは?MoE型マルチモーダル LLM のローカル実行ガイドで詳しく解説しています。

選定軸1: アーキテクチャ MoEはアクティブ量で速度判断、Denseは総量で速度判断
選定軸2: メモリ帯域 Apple Siliconは帯域でDenseが不利、NVIDIA GPUは差が縮まる
選定軸3: 量子化レベル Q4はMoEで実用、DenseはQ4で品質劣化のリスクが高まる傾向
選定軸4: コンテキスト長 128Kフル使用ならRAM/VRAMに余裕を10GB以上確保

よくある質問

Q. 35B A3B(MoE)と27B UD(Dense)はどちらを選ぶべき?

M5 Pro 64GB環境であれば35B A3Bを優先する判断が有力。投稿者の比較では速度・品質の両面で35B A3Bが上回りました。NVIDIA GPU環境であれば、VRAM容量と消費電力で選び分けることになります。

Q. M5 Pro 64GBは2026年5月時点で買い時?

ローカルLLM用途を主目的とするなら、M5 Maxの128GBやNVIDIA GPUとの比較を含めて判断すべき段階。Reddit上ではM5 Max 128GBユーザーから「世代差より構成差・モデル差の方が大きい」という意見が出ており、容量に余裕を持つ判断も検討材料になり得ます。

Q. NVIDIA GPUとApple Silicon、どちらがローカルLLM向き?

絶対的なメモリ帯域はNVIDIAの方が高く、Dense型の大きいモデルでは有利。Apple SiliconはUnified Memoryで大容量を扱える点と消費電力の低さが強み。MoEモデル中心ならApple Siliconの相性も悪くない状況です。

Q. VRAM 16GBでQwen 3.6 35B A3Bは動く?

当サイトの検証環境(RTX 5080 16GB / 96GB RAM)ではqwen3.5:35b-a3bが約14.4トークン/秒で動作した実績があります。Qwen 3.6の同等構成も類似のVRAM消費(15GB前後)になる見込みで、動作可能性は高いと考えられます。

Q. プロンプト処理速度はなぜ遅くなるのか?

プロンプト処理は入力全体を一気にGPUに通すバッチ処理で、トークン生成とは別工程。コンテキストが長いほどプロンプト処理時間が増え、応答開始までの待ち時間が体感を支配します。生成速度(トークン/秒)だけ見て選ぶと、入力処理で詰まって遅く感じる落とし穴。

まとめ:サイズ単独で選ぶ時代の終わり

Reddit投稿者の検証は、ローカルLLM選定で「総パラメータ数の大きさ=強さ」という見方が崩れつつあることを示しました。MoE構造のQwen 3.6 35B A3Bが、Dense型の27B UDをM5 Pro 64GBで全面的に上回ったという結果は、業界の常識を揺さぶる可能性。

ただし4タスクという少ないサンプルで判定された結果なので、Denseが本来持つ推論深度の優位が出るタスクは別にあるはず、というのが筆者の見方。コードレビューと文学的な長文生成、論理パズルでは結果が変わる可能性も視野に入れておくべきでしょう。

選び方の結論として、M5 Pro 64GBユーザーは35B A3B(MoE)を主軸に置き、NVIDIA GPU環境ではVRAM容量に応じて両方を試すのが現実的。アーキテクチャ × メモリ帯域 × 量子化の3軸で見れば、あなたの環境にとっての最適解が見えてきます。

あなたの環境では、35B A3BのMoE速度優位と27B UDのDense安定性、どちらを優先したいですか?

当サイトはAmazonアソシエイト・プログラムの参加者です。Amazonのアソシエイトとして、当サイトは適格販売により収入を得ています。

参考資料

タイトルとURLをコピーしました