16GB VRAMで38%あふれる qwen3.5:35b-a3b、2枚目でオフロード解消し約1.9倍に|RTX 5080+5060 Ti(Oculink)実測

16GB VRAMで38%あふれる qwen3.5:35b-a3b、2枚目でオフロード解消し約1.9倍に|RTX 5080+5060 Ti(Oculink)実測に関する記事のアイキャッチ画像 - 16GB VRAMで38%あふれる qwen3.5 GPU・グラフィックボード

35B MoEとは、総パラメータは大きいが、推論時には一部のエキスパート(専門家ネットワーク)だけを選んで使う混合エキスパート型のLLMである。

qwen3.5の35B MoEをRTX 5080(16GB)に載せると、配布サイズ約24GBに対してVRAMは16GB。実際の配置をOllamaの/api/psで見ると、約4割がCPU側へあふれていました。あふれた状態でも65 tok/s前後は出ますが、「VRAMが埋まっているのに本当に全部載っているのか」が気になるところ。当サイトの検証環境で同じモデルを単GPUとデュアルGPUで測り直したところ、単GPUで65.99 tok/s、2枚目のGPUを足したデュアル構成で125.87 tok/sでした。約1.9倍。2枚に分けて載せることでCPUへのあふれ(オフロード)がゼロになり、これが主な改善要因と見られます。ここでは「16GBで大型MoEが収まらない・遅い」で検索してくる人の疑問を、実測値とセットでまとめて答えます。

この記事の要点

  • ・16GB VRAM単体でqwen3.5:35b-a3bは65.99 tok/s。ただし配布約24GBは収まり切らず、Ollamaの/api/psで確認すると約38%(8.4GiB相当)がCPU側にオフロードされていた
  • ・Oculink接続の2枚目GPUを足したデュアル構成では、モデルが2枚のVRAMに収まりオフロードが0%に。速度は125.87 tok/sへ、約1.9倍
  • ・主な改善要因はモデルがVRAMに収まること(容量=あふれの解消)と推定される。Oculink x4帯域そのものの影響は未評価だが、x4越しでも約1.9倍は出た

計測条件と測定方法(再現のための開示)

この記事の実測に使った構成を先にまとめます。使用モデル: qwen3.5:35b-a3b(量子化 Q4_K_M)/ Ollama 0.30.7(計測時点)/ num_ctx 8192 / 計測日 2026-06-13。モデルやOllamaのバージョンは記事ごとに変わるため、再現時はこの組み合わせをそろえてください。

以下の数値はすべて当サイトの検証環境で計測した実測値です。再現と解釈の前提として、測定条件を開示しておきます。

  • ハードウェア: RTX 5080(16GB)。2枚目はOculink接続のRTX 5060 Ti(16GB)。CPU・RAM等のフル構成は当サイトの検証環境ページに記載
  • ソフトウェア: Ollama 0.30.7(計測時点。公開時点では 0.30.8 がリリース済みで、0.30.8 以降では結果が変わる可能性がありますが本記事では未再検証)/ NVIDIA ドライバ 610.47 / Windows。serve は単GPU=5080のみを見せる構成、デュアル=5080と5060 Tiの両方を見せる構成(いずれもCUDA、num_ctx=8192)で切り替え
  • リクエスト: /api/generate(stream=false)。options は num_predict=512 のみ指定し、temperature・seed は未指定(既定)。temperature・seed を固定していないため完全に決定論的なベンチではなく、同一プロンプト・同一 num_predict・各3回平均による参考比較として読んでください。think(Ollama ではリクエストbody直下の項目)も単GPU・デュアルとも未指定で統一しています。Ollama 公式ドキュメント上、thinking 対応モデルでは thinking は既定で有効のため、本記事の tok/s は thinking を含む生成全体(eval_count ÷ eval_duration)の参考値です。可視回答だけの速度・thinking 量・回答品質は分離していません
  • 集計: 同一プロンプト(「AIの進化が社会に与える影響を技術・経済の両面から具体例つきで説明」という日本語の質問)で各構成3回計測(モデルをロードして常駐させたウォーム状態での計測)し、本文の tok/s は3回の算術平均。tok/s = eval_count ÷(eval_duration / 1,000,000,000)で、eval_duration は Ollama API が返すナノ秒値を秒に換算して使用しています(生成トークンのみ。プロンプト評価ぶんは別計上)
  • GPU・CPU配置: Ollama の /api/ps が返す size(モデル全体)と size_vram(VRAM常駐分)の差分から、CPU/システムメモリ側へ置かれた量を算出しています(消費電力からの推定ではなく、APIが返す値からの算出)。GPU実載は nvidia-smi のプロセス一覧で CUDA runner が対象GPUに載っていることを確認しており、CPU実行やVulkanフォールバックではありません。Ollama 環境変数は OLLAMA_FLASH_ATTENTION=1・OLLAMA_KV_CACHE_TYPE=f16・OLLAMA_NUM_PARALLEL=1・OLLAMA_MAX_LOADED_MODELS=1
  • VRAM・電力・温度: nvidia-smi の memory.used / power.draw / temperature を取得。VRAM使用量はデスクトップ等のベースラインを含むGPU全体の値で、モデル単体の増分ではありません。MiB 表記はnvidia-smi由来、GiB 表記は /api/ps のバイト値を1024で割った換算値です。デュアルの値は2枚それぞれを個別に記載します
  • モデル同一性: 主役は qwen3.5:35b-a3b(量子化 Q4_K_M・配布サイズ約24GB=Ollama タグ表示の10進GB)。単GPU・デュアルとも /api/ps の完全な digest(sha256:…)が一致することを確認しています(本文では先頭の 3460ffeede54 のみ示し、完全な値は検証ログに記録)。同名タグはレジストリ更新で中身が変わり得るため、digest をそろえることが再現性の前提です
  • 未評価: 本記事が測ったのは速度(tok/s)と初回応答(TTFT)、VRAM配置だけで、生成品質・回答精度・体感満足度は評価していません。本文の「実用的」などの表現も速度面に限った参考です

16GB VRAMのGPU1枚で35B MoEは動く?

動きます。しかも、思ったより遅くはありません。当サイトの検証環境(RTX 5080単体、3回計測の平均)では、qwen3.5:35b-a3bが65.99 tok/sでした。本記事の速度指標で見ると、チャット用途でも待ち時間は短めでした。35B級と聞くと重そうですが、このモデルはMoE(混合エキスパート)で、推論時に実際に動くアクティブパラメータが小さい(A3B=約3B相当)ため、総サイズのわりに軽く回ります。

ただし「全部VRAMに載っているか」は別の話です。配布サイズ約24GBに対してRTX 5080のVRAMは16GB。後述のとおり、収まり切らない分はCPU側に押し出されています。それでも65 tok/s台が出るのは、アクティブパラメータが小さいMoEで、あふれた分の影響が出にくいためと考えられます。

つまり「動くか動かないか」で言えば、速度の指標に限れば実用に足ります。けれど「全部VRAMに収まっているか」で言えば収まっていない。手元のGPUで35B級MoEを試すなら、まず動かして速度を測り、同時に収まり具合(オフロードの有無)も確認しておくと、2枚目を足す価値があるかの判断材料になります。

VRAMが埋まっているのに、本当に全部載っているの?

載っていません。ここが間違えやすいところです。qwen3.5:35b-a3bを動かしたときのRTX 5080のVRAM使用量は、nvidia-smiのmemory.usedで15,827MiB(約15.5GiB)。これはデスクトップ表示などのベースラインを含むGPU全体の値で、公称16GBをほぼ使い切っています。数字だけ見ると「満杯=収まっている」と読みたくなる場面です。

ところがOllamaの/api/psを見ると話が変わります。モデル全体の占有は約22GiB(size)、そのうちVRAMに常駐しているのは13.8GiB(size_vram)。差し引き約8.4GiB、割合にして37.8%がCPU/RAM側に置かれていました。VRAMは満杯なのに、モデルは入り切っていない。入らない分がCPU側のメモリに退避している状態です。

ここは推定ではなく、APIが返す配置の実値です。退避した重みを使う際は、VRAMより遅いCPU側メモリ帯域を経由するぶん待ちが生じると考えられます。アクティブパラメータの小さいMoEのため致命的な失速にはならず65 tok/s台で回っていますが、退避ぶんを無くせばさらに速くなる余地がある——というのが次の検証です。

2枚目のGPUを足せば必ず速くなる?

「必ず」ではありません。効くのは、いまのようにモデルがVRAMに収まらずCPUへあふれているケースです。今回のqwen3.5:35b-a3bはまさにその条件で、Oculink接続のRTX 5060 Tiを足したデュアル構成(RTX 5080+RTX 5060 Ti)では125.87 tok/sを記録しました。単GPUの65.99 tok/sから約1.9倍です。

速くなった理由は、/api/psを見ると明確でした。デュアル構成ではモデル全体の約21.8GiBがすべてVRAMに常駐し、CPU側へのオフロードが0%になっています。単GPUで37.8%あった「あふれ」が、2枚のVRAMに分割して載せ直したことで消えました。CPU側配置の解消が速度向上に大きく寄与した可能性が高い、という解釈です。消費電力も、単GPU時はGPU1枚で動いていたのに対し、デュアルではRTX 5080が約103W、RTX 5060 Tiが約95Wと2枚そろって稼働していました。

逆に、多くのQ4量子化7B〜12B級のように1枚のVRAMに収まる条件では、Ollamaは通常その1枚に載せるため、2枚目を足しても速度には効きにくいです(必要VRAMは量子化・コンテキスト長・並列数で変わります)。本記事の設定およびOllamaの通常挙動では、1枚に収まるモデルは単GPUに載るため、2枚目は使われないことがあります。「収まらないモデルのあふれを解消する」のがデュアルGPUの役割で、万能の加速装置ではない点は誤解しないでください。一枚に収まるモデルで二枚目が使われない挙動とその確認手順は、 href=”https://ai-hardware-zukan.com/rtx-5080-5060ti-vram-pool-dual-gpu-ollama/”>Ollamaの自動分散と二枚目が遊ぶ落とし穴の実測で詳しく扱っている。

足すかどうかは、動かしたいモデルが/api/psでオフロードされているかどうかで判断します。size と size_vram が一致していれば収まっていて別の原因。size_vram が size より小さく失速しているなら、2枚目で効く可能性が高い。今回のように約38%あふれていたケースで、約1.9倍という結果が出ました。

単GPUのCPUオフロードとデュアルでの解消RTX 5080単体ではqwen3.5:35b-a3bの約24GBが16GB VRAMに収まらず、VRAM常駐13.8GiBに対し約8.4GiB(37.8%)がCPU側へオフロードされ65.99 tok/s。2枚目のRTX 5060 Ti(Oculink)を足したデュアルでは全量21.8GiBがVRAMに収まりオフロード0%、125.87 tok/sで約1.9倍。16GB単GPUのCPUあふれと、2枚目での解消単GPU|RTX 5080(16GB)VRAMCPU側VRAM 13.8GiB / CPUへ 8.4GiB(37.8%)65.99 tok/s3回平均デュアル|5080+5060 Ti(Oculink)全量 VRAMオフロード 0%(21.8GiB 全量VRAM常駐)125.87 tok/s3回平均2枚に分けて載せ、CPUへのあふれ(37.8%)を解消 → 約1.9倍に
図:単GPUのCPUあふれ(37.8%)が、2枚目でオフロード0%に解消し約1.9倍(本文の実測を視覚化)

Oculink接続だと帯域がボトルネックにならない?

本記事の測定だけでは、Oculink x4の帯域がボトルネックでないと断定はできません。PCIe x16との比較や転送量の計測をしていないためです。ただし今回の構成では、2枚目のGPUを足してオフロードが0%になり、125.87 tok/sまで上がったことから、少なくとも主な失速要因は帯域ではなくVRAM不足(あふれ)だった可能性が高い、という解釈にとどめます。

eGPUや外付けGPUというと「Oculinkは帯域が細いから遅いはず」という見方が先に立ちがちですが、今回のOllama × qwen3.5:35b-a3bの条件では、x4越しでも約1.9倍まで回復しました。一般にトークン生成(デコード)はGPU間をまたぐ通信量が小さいとされますが、本記事では転送量を測っていないため、x4帯域でどの程度詰まったかは判断しません。観測できたのは、今回の条件ではオフロードが解消した後に125.87 tok/sまで伸びた、という点です。ローカルLLMの推論エンジンごとの分散挙動は、Ollama・LM Studio・vLLMを比べた推論エンジン比較でも整理しています。姉妹サイトのツール側でもOllama × Gemmaでローカルにコードを置いて使う環境構築の解説が入口として参考になります。

ここでも線引きを明確にします。これは「今回の観測範囲では、帯域よりVRAM不足の解消が主要因と推定される」という話で、帯域そのものの影響(PCIe x16との比較や転送量の計測)は今回評価していません。あらゆるモデル・構成で帯域が一切効かないと断定するものでもありません。

デュアルGPUにするとVRAMは合算32GBになる?

なりません。ここは間違えやすいポイント。RTX 5080は16GB、RTX 5060 Tiも16GBで、2枚挿しても「32GBの連続したVRAM」が手に入るわけではないです。Ollamaは、モデルが1枚に収まればそのGPUに載せ、収まらない場合に複数GPUへ広げます。今回のように1枚で入り切らないモデルでは、モデルのデータを2枚のカードに分割して、それぞれのVRAMに別々に載せます。

実測でもこの分割は見えます。デュアル構成のときのnvidia-smiは、RTX 5080が13,898MiB(約13.6GiB)、RTX 5060 Tiが11,096MiB(約10.8GiB)。1枚に集中させるのではなく、2枚へ振り分けて全部をVRAM内に収めています。単GPU時はRTX 5080だけで15,827MiBまで張り付いていたのが、デュアルでは1枚あたりの負担が下がりました。32GBの大きな器に入れ替わったのではなく、16GB+16GBに割って載せ直した、という理解が正確です。

「16GB+16GB=32GBだから32GBのモデルが載る」という単純計算は危険です。分割には各GPUの取り分やKVキャッシュなどの確保分があり、2枚合わせても32GBちょうどまで詰め込めるわけではありません。デュアルにすれば32GB級モデルが余裕で動く、と見積もると足りなくなることがあります。今回のモデルも、2枚のGPU全体使用量(nvidia-smi、ベースライン込み)は合わせて約24GiB(13.6+10.8)、純粋なモデルの常駐量は/api/psで約21.8GiBでした。いずれにしても32GBの器いっぱいまで使うわけではありません。

VRAMの考え方は「合算」ではなく「分散で収め切る」。この違いを押さえておくと、どのモデルなら2枚で収まりそうかの見当が付けやすくなります。

デュアルGPUのVRAMは合算でなく分割デュアル構成では32GBの連続VRAMにはならず、Ollamaがモデルを2枚に分割してロードする。当サイト実測ではRTX 5080が13.9GiB、RTX 5060 Tiが10.8GiB(いずれもnvidia-smiのGPU全体使用量)で、モデル常駐は約21.8GiB。デュアルは32GB合算でなく、2枚に分割して収めるRTX 5080(16GB)13.9GiB 使用枠 16GBRTX 5060 Ti(16GB・Oculink)10.8GiB 使用枠 16GB16+16=32GBの連続VRAMにはならない。2枚へ分割し全量を収める(モデル常駐 約21.8GiB)
図:デュアルは合算32GBでなく、5080=13.9GiB・5060 Ti=10.8GiBに分割して収める

速くなった代わりに、初回応答の近似指標は悪くなる?

今回の測定では、デュアル化でTTFTが大きく悪化することはありませんでした。初回応答の近似指標(ここでは load_duration+prompt_eval_duration から見た値)は、ウォーム状態のデュアル構成で各回270〜430ms程度。ただしこれは stream=false のレスポンスメトリクスからの近似で、実際に最初のトークンが到着した時刻を測ったものではありません(厳密な TTFT は stream=true で別途測定が必要)。生成スループットが約1.9倍になりながら、この近似指標も数百msに収まっています。重みを2枚に分割してロードしても、モデルが常駐していれば応答の立ち上がりは軽いままでした。

ただし、TTFTはモデルのロード状態(コールド/ウォーム)やプロンプト長で大きく前後します。初回ロードを含むコールド状態では、どちらの構成でも立ち上がりに数秒かかります。ここで挙げた数百msはウォーム状態(一度ロードして常駐させた後)の値で、絶対値というより「デュアル化で初回応答が目立って悪化することはなかった」という傾向として受け取ってください。

他の構成でも効く? ノートPCでは無理?

「2枚目を足す」手は、デスクトップに外付けGPUを足せる構成だからこそ取れる選択肢です。ノートPCではまず難しい。ゲーミングノート向けのGPUはVRAMが控えめで、たとえばRTX 5060 Laptop GPUは8GB(GDDR7)。デスクトップ版のRTX 5060 Ti 16GBとは型番が似ていても別物で、配布約24GBのqwen3.5:35b-a3bのような大型MoEは収まりません。一般的なノートPCは内蔵GPUを増設できないため、今回と同じ2枚構成は取りにくいです。上位のLaptop GPUや外付けGPU対応機は仕様が異なるので、個別の確認が必要です。

ミニPCも同様の事情を抱えます。16GBのDDR5をCPUとGPUで共有するタイプ(Ryzen系APU構成など)は、メモリ容量こそ確保できても、共有メモリの帯域が専用VRAMほど出ないため、大型MoEを高速に回す用途には向きません。対してRTX 5060 Ti 16GBのようなデスクトップ向けカードは、Oculink経由で2枚目に足す現実的な選択肢になります(対応ポート・BIOS/UEFI・電源・冷却・ドライバでのCUDA認識は機種ごとに個別確認が必要。入手性や価格も時期・地域・販売店で変わります)。

主役モデル Qwen3.5 35B-A3B(Ollama: qwen3.5:35b-a3b・Q4_K_M・配布約24GB・ID 3460ffeede54)(MoE)
RTX 5080単体(実測) 65.99 tok/s/オフロード37.8%(モデル全体の約8.4GiBがCPU側)/GPU全体15,827MiB/約115W
RTX 5080+RTX 5060 Ti デュアル(実測) 125.87 tok/s/オフロード0%(全量VRAM常駐)/5080=13,898MiB+5060 Ti=11,096MiB(いずれもGPU全体・ベースライン込み)/約103W+約95W
速度比 約1.9倍(同一モデル・同一プロンプト・num_predict=512・num_ctx=8192・think未指定統一・各3回平均の参考比較。temperature/seed は未固定)
観測された要因 CPUオフロードの解消と速度向上が同時に発生(VRAM不足の解消が主因と推定)。Oculink x4帯域そのものの影響は未測定
計測環境 当サイトの検証環境(Ollama 0.30.7・num_ctx=8192・3回計測の平均、計測日2026-06-13)

まとめ:よくある疑問を一気に整理

16GBで大型MoEを動かすときの疑問は、突き詰めると1つの軸に集まります。モデルがVRAMに収まっているか。/api/psで size と size_vram が一致していれば収まっていて、速度が出ないなら別の原因。size_vram が小さくCPUへあふれているなら、2枚目のGPUを足してフルVRAM常駐に戻すと速度が伸びます。当サイトの検証ではqwen3.5:35b-a3bが、単GPUの37.8%オフロード・65.99 tok/sから、デュアルのオフロード0%・125.87 tok/sへ、約1.9倍になりました。これは特定の構成・モデル・条件での実測で、すべての35B級MoEや任意の2枚構成で同じ比率を保証するものではありません。

ここで本文の条件を崩さず確認しておくと、少なくとも今回の構成では主な改善要因は容量(あふれの解消)と推定され、帯域そのものの影響は未評価です。単GPUで約38%あふれていたことと、Oculink越しでもデュアルで約1.9倍が出てオフロードが消えた事実が、容量主因という推定の根拠です。一方で「2枚目を足せば何でも速くなる」わけではなく、すでに収まっているモデルでは効果は薄い。VRAMは合算32GBになるのではなく、各16GBへ分割して載せ直す動きであることも要点でした。デュアル化で初回応答(TTFT)が大きく悪化することは、今回の測定では見られませんでした。

手持ちのGPUで35B級MoEを速度面で快適に動かしたいなら、まずそのモデルが/api/psでVRAMに収まっているかを確認してください。なお本記事は qwen3.5:35b-a3b タグ固有の実測で、より新しい Qwen3.6 系(35B-A3B など)は測定していません。あふれて速度を落としているなら、2枚目のGPUが選択肢に入ります。ノートPCやミニPCでは同じ手が取りにくい点も含めて、構成を選ぶ判断材料になります。

参考資料

当サイトはAmazonアソシエイト・プログラムの参加者です。Amazonのアソシエイトとして、当サイトは適格販売により収入を得ています。

計測日: 2026-06-13(Ollama 0.30.7・num_ctx=8192 で計測)。本ページの計測は計測日時点のもの。同名モデルタグは更新で中身が変わることがあり、製品アップデートや第三者ベンチマーク公表により評価が変わる可能性があります。30日以上経過した内容は再検証を推奨します。

タイトルとURLをコピーしました