16GB VRAMで38%あふれる qwen3.5:35b-a3b、2枚目でオフロード解消し約1.9倍に

35B MoEとは、総パラメータは大きいが、推論時には一部のエキスパート（専門家ネットワーク）だけを選んで使う混合エキスパート型のLLMである。

qwen3.5の35B MoEをRTX 5080（16GB）に載せると、配布サイズ約24GBに対してVRAMは16GB。実際の配置をOllamaの/api/psで見ると、約4割がCPU側へあふれていました。あふれた状態でも65 tok/s前後は出ますが、「VRAMが埋まっているのに本当に全部載っているのか」が気になるところ。当サイトの検証環境で同じモデルを単GPUとデュアルGPUで測り直したところ、単GPUで65.99 tok/s、2枚目のGPUを足したデュアル構成で125.87 tok/sでした。約1.9倍。2枚に分けて載せることでCPUへのあふれ（オフロード）がゼロになり、これが主な改善要因と見られます。ここでは「16GBで大型MoEが収まらない・遅い」で検索してくる人の疑問を、実測値とセットでまとめて答えます。

この記事の要点

・16GB VRAM単体でqwen3.5:35b-a3bは65.99 tok/s。ただし配布約24GBは収まり切らず、Ollamaの/api/psで確認すると約38%（8.4GiB相当）がCPU側にオフロードされていた
・Oculink接続の2枚目GPUを足したデュアル構成では、モデルが2枚のVRAMに収まりオフロードが0%に。速度は125.87 tok/sへ、約1.9倍
・主な改善要因はモデルがVRAMに収まること（容量＝あふれの解消）と推定される。Oculink x4帯域そのものの影響は未評価だが、x4越しでも約1.9倍は出た

計測条件と測定方法（再現のための開示）
16GB VRAMのGPU1枚で35B MoEは動く？
VRAMが埋まっているのに、本当に全部載っているの？
2枚目のGPUを足せば必ず速くなる？
Oculink接続だと帯域がボトルネックにならない？
デュアルGPUにするとVRAMは合算32GBになる？
速くなった代わりに、初回応答の近似指標は悪くなる？
他の構成でも効く？ノートPCでは無理？
まとめ：よくある疑問を一気に整理
参考資料

計測条件と測定方法（再現のための開示）

この記事の実測に使った構成を先にまとめます。使用モデル: qwen3.5:35b-a3b（量子化 Q4_K_M）／ Ollama 0.30.7（計測時点）／ num_ctx 8192 ／計測日 2026-06-13。モデルやOllamaのバージョンは記事ごとに変わるため、再現時はこの組み合わせをそろえてください。

以下の数値はすべて当サイトの検証環境で計測した実測値です。再現と解釈の前提として、測定条件を開示しておきます。

ハードウェア: RTX 5080（16GB）。2枚目はOculink接続のRTX 5060 Ti（16GB）。CPU・RAM等のフル構成は当サイトの検証環境ページに記載
ソフトウェア: Ollama 0.30.7（計測時点。公開時点では 0.30.8 がリリース済みで、0.30.8 以降では結果が変わる可能性がありますが本記事では未再検証）／ NVIDIA ドライバ 610.47 ／ Windows。serve は単GPU＝5080のみを見せる構成、デュアル＝5080と5060 Tiの両方を見せる構成（いずれもCUDA、num_ctx=8192）で切り替え
リクエスト: /api/generate（stream=false）。options は num_predict=512 のみ指定し、temperature・seed は未指定（既定）。temperature・seed を固定していないため完全に決定論的なベンチではなく、同一プロンプト・同一 num_predict・各3回平均による参考比較として読んでください。think（Ollama ではリクエストbody直下の項目）も単GPU・デュアルとも未指定で統一しています。Ollama 公式ドキュメント上、thinking 対応モデルでは thinking は既定で有効のため、本記事の tok/s は thinking を含む生成全体（eval_count ÷ eval_duration）の参考値です。可視回答だけの速度・thinking 量・回答品質は分離していません
集計: 同一プロンプト（「AIの進化が社会に与える影響を技術・経済の両面から具体例つきで説明」という日本語の質問）で各構成3回計測（モデルをロードして常駐させたウォーム状態での計測）し、本文の tok/s は3回の算術平均。tok/s = eval_count ÷（eval_duration / 1,000,000,000）で、eval_duration は Ollama API が返すナノ秒値を秒に換算して使用しています（生成トークンのみ。プロンプト評価ぶんは別計上）
GPU・CPU配置: Ollama の /api/ps が返す size（モデル全体）と size_vram（VRAM常駐分）の差分から、CPU/システムメモリ側へ置かれた量を算出しています（消費電力からの推定ではなく、APIが返す値からの算出）。GPU実載は nvidia-smi のプロセス一覧で CUDA runner が対象GPUに載っていることを確認しており、CPU実行やVulkanフォールバックではありません。Ollama 環境変数は OLLAMA_FLASH_ATTENTION=1・OLLAMA_KV_CACHE_TYPE=f16・OLLAMA_NUM_PARALLEL=1・OLLAMA_MAX_LOADED_MODELS=1
VRAM・電力・温度: nvidia-smi の memory.used ／ power.draw ／ temperature を取得。VRAM使用量はデスクトップ等のベースラインを含むGPU全体の値で、モデル単体の増分ではありません。MiB 表記はnvidia-smi由来、GiB 表記は /api/ps のバイト値を1024で割った換算値です。デュアルの値は2枚それぞれを個別に記載します
モデル同一性: 主役は qwen3.5:35b-a3b（量子化 Q4_K_M・配布サイズ約24GB＝Ollama タグ表示の10進GB）。単GPU・デュアルとも /api/ps の完全な digest（sha256:…）が一致することを確認しています（本文では先頭の 3460ffeede54 のみ示し、完全な値は検証ログに記録）。同名タグはレジストリ更新で中身が変わり得るため、digest をそろえることが再現性の前提です
未評価: 本記事が測ったのは速度（tok/s）と初回応答（TTFT）、VRAM配置だけで、生成品質・回答精度・体感満足度は評価していません。本文の「実用的」などの表現も速度面に限った参考です

16GB VRAMのGPU1枚で35B MoEは動く？

動きます。しかも、思ったより遅くはありません。当サイトの検証環境（RTX 5080単体、3回計測の平均）では、qwen3.5:35b-a3bが65.99 tok/sでした。本記事の速度指標で見ると、チャット用途でも待ち時間は短めでした。35B級と聞くと重そうですが、このモデルはMoE（混合エキスパート）で、推論時に実際に動くアクティブパラメータが小さい（A3B＝約3B相当）ため、総サイズのわりに軽く回ります。

ただし「全部VRAMに載っているか」は別の話です。配布サイズ約24GBに対してRTX 5080のVRAMは16GB。後述のとおり、収まり切らない分はCPU側に押し出されています。それでも65 tok/s台が出るのは、アクティブパラメータが小さいMoEで、あふれた分の影響が出にくいためと考えられます。

つまり「動くか動かないか」で言えば、速度の指標に限れば実用に足ります。けれど「全部VRAMに収まっているか」で言えば収まっていない。手元のGPUで35B級MoEを試すなら、まず動かして速度を測り、同時に収まり具合（オフロードの有無）も確認しておくと、2枚目を足す価値があるかの判断材料になります。

VRAMが埋まっているのに、本当に全部載っているの？

載っていません。ここが間違えやすいところです。qwen3.5:35b-a3bを動かしたときのRTX 5080のVRAM使用量は、nvidia-smiのmemory.usedで15,827MiB（約15.5GiB）。これはデスクトップ表示などのベースラインを含むGPU全体の値で、公称16GBをほぼ使い切っています。数字だけ見ると「満杯＝収まっている」と読みたくなる場面です。

ところがOllamaの/api/psを見ると話が変わります。モデル全体の占有は約22GiB（size）、そのうちVRAMに常駐しているのは13.8GiB（size_vram）。差し引き約8.4GiB、割合にして37.8%がCPU/RAM側に置かれていました。VRAMは満杯なのに、モデルは入り切っていない。入らない分がCPU側のメモリに退避している状態です。

ここは推定ではなく、APIが返す配置の実値です。退避した重みを使う際は、VRAMより遅いCPU側メモリ帯域を経由するぶん待ちが生じると考えられます。アクティブパラメータの小さいMoEのため致命的な失速にはならず65 tok/s台で回っていますが、退避ぶんを無くせばさらに速くなる余地がある——というのが次の検証です。

2枚目のGPUを足せば必ず速くなる？

「必ず」ではありません。効くのは、いまのようにモデルがVRAMに収まらずCPUへあふれているケースです。今回のqwen3.5:35b-a3bはまさにその条件で、Oculink接続のRTX 5060 Tiを足したデュアル構成（RTX 5080＋RTX 5060 Ti）では125.87 tok/sを記録しました。単GPUの65.99 tok/sから約1.9倍です。

速くなった理由は、/api/psを見ると明確でした。デュアル構成ではモデル全体の約21.8GiBがすべてVRAMに常駐し、CPU側へのオフロードが0%になっています。単GPUで37.8%あった「あふれ」が、2枚のVRAMに分割して載せ直したことで消えました。CPU側配置の解消が速度向上に大きく寄与した可能性が高い、という解釈です。消費電力も、単GPU時はGPU1枚で動いていたのに対し、デュアルではRTX 5080が約103W、RTX 5060 Tiが約95Wと2枚そろって稼働していました。

逆に、多くのQ4量子化7B〜12B級のように1枚のVRAMに収まる条件では、Ollamaは通常その1枚に載せるため、2枚目を足しても速度には効きにくいです（必要VRAMは量子化・コンテキスト長・並列数で変わります）。本記事の設定およびOllamaの通常挙動では、1枚に収まるモデルは単GPUに載るため、2枚目は使われないことがあります。「収まらないモデルのあふれを解消する」のがデュアルGPUの役割で、万能の加速装置ではない点は誤解しないでください。一枚に収まるモデルで二枚目が使われない挙動とその確認手順は、 href=”https://ai-hardware-zukan.com/rtx-5080-5060ti-vram-pool-dual-gpu-ollama/”>Ollamaの自動分散と二枚目が遊ぶ落とし穴の実測で詳しく扱っている。

足すかどうかは、動かしたいモデルが/api/psでオフロードされているかどうかで判断します。size と size_vram が一致していれば収まっていて別の原因。size_vram が size より小さく失速しているなら、2枚目で効く可能性が高い。今回のように約38%あふれていたケースで、約1.9倍という結果が出ました。

図：単GPUのCPUあふれ（37.8%）が、2枚目でオフロード0%に解消し約1.9倍（本文の実測を視覚化）

Oculink接続だと帯域がボトルネックにならない？

本記事の測定だけでは、Oculink x4の帯域がボトルネックでないと断定はできません。PCIe x16との比較や転送量の計測をしていないためです。ただし今回の構成では、2枚目のGPUを足してオフロードが0%になり、125.87 tok/sまで上がったことから、少なくとも主な失速要因は帯域ではなくVRAM不足（あふれ）だった可能性が高い、という解釈にとどめます。

eGPUや外付けGPUというと「Oculinkは帯域が細いから遅いはず」という見方が先に立ちがちですが、今回のOllama × qwen3.5:35b-a3bの条件では、x4越しでも約1.9倍まで回復しました。一般にトークン生成（デコード）はGPU間をまたぐ通信量が小さいとされますが、本記事では転送量を測っていないため、x4帯域でどの程度詰まったかは判断しません。観測できたのは、今回の条件ではオフロードが解消した後に125.87 tok/sまで伸びた、という点です。ローカルLLMの推論エンジンごとの分散挙動は、Ollama・LM Studio・vLLMを比べた推論エンジン比較でも整理しています。姉妹サイトのツール側でもOllama × Gemmaでローカルにコードを置いて使う環境構築の解説が入口として参考になります。

ここでも線引きを明確にします。これは「今回の観測範囲では、帯域よりVRAM不足の解消が主要因と推定される」という話で、帯域そのものの影響（PCIe x16との比較や転送量の計測）は今回評価していません。あらゆるモデル・構成で帯域が一切効かないと断定するものでもありません。

デュアルGPUにするとVRAMは合算32GBになる？

なりません。ここは間違えやすいポイント。RTX 5080は16GB、RTX 5060 Tiも16GBで、2枚挿しても「32GBの連続したVRAM」が手に入るわけではないです。Ollamaは、モデルが1枚に収まればそのGPUに載せ、収まらない場合に複数GPUへ広げます。今回のように1枚で入り切らないモデルでは、モデルのデータを2枚のカードに分割して、それぞれのVRAMに別々に載せます。

実測でもこの分割は見えます。デュアル構成のときのnvidia-smiは、RTX 5080が13,898MiB（約13.6GiB）、RTX 5060 Tiが11,096MiB（約10.8GiB）。1枚に集中させるのではなく、2枚へ振り分けて全部をVRAM内に収めています。単GPU時はRTX 5080だけで15,827MiBまで張り付いていたのが、デュアルでは1枚あたりの負担が下がりました。32GBの大きな器に入れ替わったのではなく、16GB＋16GBに割って載せ直した、という理解が正確です。

「16GB＋16GB＝32GBだから32GBのモデルが載る」という単純計算は危険です。分割には各GPUの取り分やKVキャッシュなどの確保分があり、2枚合わせても32GBちょうどまで詰め込めるわけではありません。デュアルにすれば32GB級モデルが余裕で動く、と見積もると足りなくなることがあります。今回のモデルも、2枚のGPU全体使用量（nvidia-smi、ベースライン込み）は合わせて約24GiB（13.6＋10.8）、純粋なモデルの常駐量は/api/psで約21.8GiBでした。いずれにしても32GBの器いっぱいまで使うわけではありません。

VRAMの考え方は「合算」ではなく「分散で収め切る」。この違いを押さえておくと、どのモデルなら2枚で収まりそうかの見当が付けやすくなります。

図：デュアルは合算32GBでなく、5080=13.9GiB・5060 Ti=10.8GiBに分割して収める

速くなった代わりに、初回応答の近似指標は悪くなる？

今回の測定では、デュアル化でTTFTが大きく悪化することはありませんでした。初回応答の近似指標（ここでは load_duration＋prompt_eval_duration から見た値）は、ウォーム状態のデュアル構成で各回270〜430ms程度。ただしこれは stream=false のレスポンスメトリクスからの近似で、実際に最初のトークンが到着した時刻を測ったものではありません（厳密な TTFT は stream=true で別途測定が必要）。生成スループットが約1.9倍になりながら、この近似指標も数百msに収まっています。重みを2枚に分割してロードしても、モデルが常駐していれば応答の立ち上がりは軽いままでした。

ただし、TTFTはモデルのロード状態（コールド／ウォーム）やプロンプト長で大きく前後します。初回ロードを含むコールド状態では、どちらの構成でも立ち上がりに数秒かかります。ここで挙げた数百msはウォーム状態（一度ロードして常駐させた後）の値で、絶対値というより「デュアル化で初回応答が目立って悪化することはなかった」という傾向として受け取ってください。

他の構成でも効く？ノートPCでは無理？

「2枚目を足す」手は、デスクトップに外付けGPUを足せる構成だからこそ取れる選択肢です。ノートPCではまず難しい。ゲーミングノート向けのGPUはVRAMが控えめで、たとえばRTX 5060 Laptop GPUは8GB（GDDR7）。デスクトップ版のRTX 5060 Ti 16GBとは型番が似ていても別物で、配布約24GBのqwen3.5:35b-a3bのような大型MoEは収まりません。一般的なノートPCは内蔵GPUを増設できないため、今回と同じ2枚構成は取りにくいです。上位のLaptop GPUや外付けGPU対応機は仕様が異なるので、個別の確認が必要です。

ミニPCも同様の事情を抱えます。16GBのDDR5をCPUとGPUで共有するタイプ（Ryzen系APU構成など）は、メモリ容量こそ確保できても、共有メモリの帯域が専用VRAMほど出ないため、大型MoEを高速に回す用途には向きません。対してRTX 5060 Ti 16GBのようなデスクトップ向けカードは、Oculink経由で2枚目に足す現実的な選択肢になります（対応ポート・BIOS/UEFI・電源・冷却・ドライバでのCUDA認識は機種ごとに個別確認が必要。入手性や価格も時期・地域・販売店で変わります）。

主役モデル	Qwen3.5 35B-A3B（Ollama: qwen3.5:35b-a3b・Q4_K_M・配布約24GB・ID 3460ffeede54）（MoE）
RTX 5080単体（実測）	65.99 tok/s／オフロード37.8%（モデル全体の約8.4GiBがCPU側）／GPU全体15,827MiB／約115W
RTX 5080＋RTX 5060 Ti デュアル（実測）	125.87 tok/s／オフロード0%（全量VRAM常駐）／5080=13,898MiB＋5060 Ti=11,096MiB（いずれもGPU全体・ベースライン込み）／約103W＋約95W
速度比	約1.9倍（同一モデル・同一プロンプト・num_predict=512・num_ctx=8192・think未指定統一・各3回平均の参考比較。temperature/seed は未固定）
観測された要因	CPUオフロードの解消と速度向上が同時に発生（VRAM不足の解消が主因と推定）。Oculink x4帯域そのものの影響は未測定
計測環境	当サイトの検証環境（Ollama 0.30.7・num_ctx=8192・3回計測の平均、計測日2026-06-13）

まとめ：よくある疑問を一気に整理

16GBで大型MoEを動かすときの疑問は、突き詰めると1つの軸に集まります。モデルがVRAMに収まっているか。/api/psで size と size_vram が一致していれば収まっていて、速度が出ないなら別の原因。size_vram が小さくCPUへあふれているなら、2枚目のGPUを足してフルVRAM常駐に戻すと速度が伸びます。当サイトの検証ではqwen3.5:35b-a3bが、単GPUの37.8%オフロード・65.99 tok/sから、デュアルのオフロード0%・125.87 tok/sへ、約1.9倍になりました。これは特定の構成・モデル・条件での実測で、すべての35B級MoEや任意の2枚構成で同じ比率を保証するものではありません。

ここで本文の条件を崩さず確認しておくと、少なくとも今回の構成では主な改善要因は容量（あふれの解消）と推定され、帯域そのものの影響は未評価です。単GPUで約38%あふれていたことと、Oculink越しでもデュアルで約1.9倍が出てオフロードが消えた事実が、容量主因という推定の根拠です。一方で「2枚目を足せば何でも速くなる」わけではなく、すでに収まっているモデルでは効果は薄い。VRAMは合算32GBになるのではなく、各16GBへ分割して載せ直す動きであることも要点でした。デュアル化で初回応答（TTFT）が大きく悪化することは、今回の測定では見られませんでした。

手持ちのGPUで35B級MoEを速度面で快適に動かしたいなら、まずそのモデルが/api/psでVRAMに収まっているかを確認してください。なお本記事は qwen3.5:35b-a3b タグ固有の実測で、より新しい Qwen3.6 系（35B-A3B など）は測定していません。あふれて速度を落としているなら、2枚目のGPUが選択肢に入ります。ノートPCやミニPCでは同じ手が取りにくい点も含めて、構成を選ぶ判断材料になります。