35B MoEとは、総パラメータは大きいが、推論時には一部のエキスパート(専門家ネットワーク)だけを選んで使う混合エキスパート型のLLMである。
qwen3.5の35B MoEをRTX 5080(16GB)に載せると、配布サイズ約24GBに対してVRAMは16GB。実際の配置をOllamaの/api/psで見ると、約4割がCPU側へあふれていました。あふれた状態でも65 tok/s前後は出ますが、「VRAMが埋まっているのに本当に全部載っているのか」が気になるところ。当サイトの検証環境で同じモデルを単GPUとデュアルGPUで測り直したところ、単GPUで65.99 tok/s、2枚目のGPUを足したデュアル構成で125.87 tok/sでした。約1.9倍。2枚に分けて載せることでCPUへのあふれ(オフロード)がゼロになり、これが主な改善要因と見られます。ここでは「16GBで大型MoEが収まらない・遅い」で検索してくる人の疑問を、実測値とセットでまとめて答えます。
- ・16GB VRAM単体でqwen3.5:35b-a3bは65.99 tok/s。ただし配布約24GBは収まり切らず、Ollamaの
/api/psで確認すると約38%(8.4GiB相当)がCPU側にオフロードされていた - ・Oculink接続の2枚目GPUを足したデュアル構成では、モデルが2枚のVRAMに収まりオフロードが0%に。速度は125.87 tok/sへ、約1.9倍
- ・主な改善要因はモデルがVRAMに収まること(容量=あふれの解消)と推定される。Oculink x4帯域そのものの影響は未評価だが、x4越しでも約1.9倍は出た
計測条件と測定方法(再現のための開示)
この記事の実測に使った構成を先にまとめます。使用モデル: qwen3.5:35b-a3b(量子化 Q4_K_M)/ Ollama 0.30.7(計測時点)/ num_ctx 8192 / 計測日 2026-06-13。モデルやOllamaのバージョンは記事ごとに変わるため、再現時はこの組み合わせをそろえてください。
以下の数値はすべて当サイトの検証環境で計測した実測値です。再現と解釈の前提として、測定条件を開示しておきます。
- ハードウェア: RTX 5080(16GB)。2枚目はOculink接続のRTX 5060 Ti(16GB)。CPU・RAM等のフル構成は当サイトの検証環境ページに記載
- ソフトウェア: Ollama 0.30.7(計測時点。公開時点では 0.30.8 がリリース済みで、0.30.8 以降では結果が変わる可能性がありますが本記事では未再検証)/ NVIDIA ドライバ 610.47 / Windows。serve は単GPU=5080のみを見せる構成、デュアル=5080と5060 Tiの両方を見せる構成(いずれもCUDA、num_ctx=8192)で切り替え
- リクエスト:
/api/generate(stream=false)。options は num_predict=512 のみ指定し、temperature・seed は未指定(既定)。temperature・seed を固定していないため完全に決定論的なベンチではなく、同一プロンプト・同一 num_predict・各3回平均による参考比較として読んでください。think(Ollama ではリクエストbody直下の項目)も単GPU・デュアルとも未指定で統一しています。Ollama 公式ドキュメント上、thinking 対応モデルでは thinking は既定で有効のため、本記事の tok/s は thinking を含む生成全体(eval_count ÷ eval_duration)の参考値です。可視回答だけの速度・thinking 量・回答品質は分離していません - 集計: 同一プロンプト(「AIの進化が社会に与える影響を技術・経済の両面から具体例つきで説明」という日本語の質問)で各構成3回計測(モデルをロードして常駐させたウォーム状態での計測)し、本文の tok/s は3回の算術平均。tok/s = eval_count ÷(eval_duration / 1,000,000,000)で、eval_duration は Ollama API が返すナノ秒値を秒に換算して使用しています(生成トークンのみ。プロンプト評価ぶんは別計上)
- GPU・CPU配置: Ollama の
/api/psが返す size(モデル全体)と size_vram(VRAM常駐分)の差分から、CPU/システムメモリ側へ置かれた量を算出しています(消費電力からの推定ではなく、APIが返す値からの算出)。GPU実載は nvidia-smi のプロセス一覧で CUDA runner が対象GPUに載っていることを確認しており、CPU実行やVulkanフォールバックではありません。Ollama 環境変数は OLLAMA_FLASH_ATTENTION=1・OLLAMA_KV_CACHE_TYPE=f16・OLLAMA_NUM_PARALLEL=1・OLLAMA_MAX_LOADED_MODELS=1 - VRAM・電力・温度: nvidia-smi の memory.used / power.draw / temperature を取得。VRAM使用量はデスクトップ等のベースラインを含むGPU全体の値で、モデル単体の増分ではありません。MiB 表記はnvidia-smi由来、GiB 表記は
/api/psのバイト値を1024で割った換算値です。デュアルの値は2枚それぞれを個別に記載します - モデル同一性: 主役は qwen3.5:35b-a3b(量子化 Q4_K_M・配布サイズ約24GB=Ollama タグ表示の10進GB)。単GPU・デュアルとも
/api/psの完全な digest(sha256:…)が一致することを確認しています(本文では先頭の 3460ffeede54 のみ示し、完全な値は検証ログに記録)。同名タグはレジストリ更新で中身が変わり得るため、digest をそろえることが再現性の前提です - 未評価: 本記事が測ったのは速度(tok/s)と初回応答(TTFT)、VRAM配置だけで、生成品質・回答精度・体感満足度は評価していません。本文の「実用的」などの表現も速度面に限った参考です
16GB VRAMのGPU1枚で35B MoEは動く?
動きます。しかも、思ったより遅くはありません。当サイトの検証環境(RTX 5080単体、3回計測の平均)では、qwen3.5:35b-a3bが65.99 tok/sでした。本記事の速度指標で見ると、チャット用途でも待ち時間は短めでした。35B級と聞くと重そうですが、このモデルはMoE(混合エキスパート)で、推論時に実際に動くアクティブパラメータが小さい(A3B=約3B相当)ため、総サイズのわりに軽く回ります。
ただし「全部VRAMに載っているか」は別の話です。配布サイズ約24GBに対してRTX 5080のVRAMは16GB。後述のとおり、収まり切らない分はCPU側に押し出されています。それでも65 tok/s台が出るのは、アクティブパラメータが小さいMoEで、あふれた分の影響が出にくいためと考えられます。
つまり「動くか動かないか」で言えば、速度の指標に限れば実用に足ります。けれど「全部VRAMに収まっているか」で言えば収まっていない。手元のGPUで35B級MoEを試すなら、まず動かして速度を測り、同時に収まり具合(オフロードの有無)も確認しておくと、2枚目を足す価値があるかの判断材料になります。
VRAMが埋まっているのに、本当に全部載っているの?
載っていません。ここが間違えやすいところです。qwen3.5:35b-a3bを動かしたときのRTX 5080のVRAM使用量は、nvidia-smiのmemory.usedで15,827MiB(約15.5GiB)。これはデスクトップ表示などのベースラインを含むGPU全体の値で、公称16GBをほぼ使い切っています。数字だけ見ると「満杯=収まっている」と読みたくなる場面です。
ところがOllamaの/api/psを見ると話が変わります。モデル全体の占有は約22GiB(size)、そのうちVRAMに常駐しているのは13.8GiB(size_vram)。差し引き約8.4GiB、割合にして37.8%がCPU/RAM側に置かれていました。VRAMは満杯なのに、モデルは入り切っていない。入らない分がCPU側のメモリに退避している状態です。
ここは推定ではなく、APIが返す配置の実値です。退避した重みを使う際は、VRAMより遅いCPU側メモリ帯域を経由するぶん待ちが生じると考えられます。アクティブパラメータの小さいMoEのため致命的な失速にはならず65 tok/s台で回っていますが、退避ぶんを無くせばさらに速くなる余地がある——というのが次の検証です。
2枚目のGPUを足せば必ず速くなる?
「必ず」ではありません。効くのは、いまのようにモデルがVRAMに収まらずCPUへあふれているケースです。今回のqwen3.5:35b-a3bはまさにその条件で、Oculink接続のRTX 5060 Tiを足したデュアル構成(RTX 5080+RTX 5060 Ti)では125.87 tok/sを記録しました。単GPUの65.99 tok/sから約1.9倍です。
速くなった理由は、/api/psを見ると明確でした。デュアル構成ではモデル全体の約21.8GiBがすべてVRAMに常駐し、CPU側へのオフロードが0%になっています。単GPUで37.8%あった「あふれ」が、2枚のVRAMに分割して載せ直したことで消えました。CPU側配置の解消が速度向上に大きく寄与した可能性が高い、という解釈です。消費電力も、単GPU時はGPU1枚で動いていたのに対し、デュアルではRTX 5080が約103W、RTX 5060 Tiが約95Wと2枚そろって稼働していました。
足すかどうかは、動かしたいモデルが/api/psでオフロードされているかどうかで判断します。size と size_vram が一致していれば収まっていて別の原因。size_vram が size より小さく失速しているなら、2枚目で効く可能性が高い。今回のように約38%あふれていたケースで、約1.9倍という結果が出ました。
Oculink接続だと帯域がボトルネックにならない?
本記事の測定だけでは、Oculink x4の帯域がボトルネックでないと断定はできません。PCIe x16との比較や転送量の計測をしていないためです。ただし今回の構成では、2枚目のGPUを足してオフロードが0%になり、125.87 tok/sまで上がったことから、少なくとも主な失速要因は帯域ではなくVRAM不足(あふれ)だった可能性が高い、という解釈にとどめます。
eGPUや外付けGPUというと「Oculinkは帯域が細いから遅いはず」という見方が先に立ちがちですが、今回のOllama × qwen3.5:35b-a3bの条件では、x4越しでも約1.9倍まで回復しました。一般にトークン生成(デコード)はGPU間をまたぐ通信量が小さいとされますが、本記事では転送量を測っていないため、x4帯域でどの程度詰まったかは判断しません。観測できたのは、今回の条件ではオフロードが解消した後に125.87 tok/sまで伸びた、という点です。ローカルLLMの推論エンジンごとの分散挙動は、Ollama・LM Studio・vLLMを比べた推論エンジン比較でも整理しています。姉妹サイトのツール側でもOllama × Gemmaでローカルにコードを置いて使う環境構築の解説が入口として参考になります。
ここでも線引きを明確にします。これは「今回の観測範囲では、帯域よりVRAM不足の解消が主要因と推定される」という話で、帯域そのものの影響(PCIe x16との比較や転送量の計測)は今回評価していません。あらゆるモデル・構成で帯域が一切効かないと断定するものでもありません。
デュアルGPUにするとVRAMは合算32GBになる?
なりません。ここは間違えやすいポイント。RTX 5080は16GB、RTX 5060 Tiも16GBで、2枚挿しても「32GBの連続したVRAM」が手に入るわけではないです。Ollamaは、モデルが1枚に収まればそのGPUに載せ、収まらない場合に複数GPUへ広げます。今回のように1枚で入り切らないモデルでは、モデルのデータを2枚のカードに分割して、それぞれのVRAMに別々に載せます。
実測でもこの分割は見えます。デュアル構成のときのnvidia-smiは、RTX 5080が13,898MiB(約13.6GiB)、RTX 5060 Tiが11,096MiB(約10.8GiB)。1枚に集中させるのではなく、2枚へ振り分けて全部をVRAM内に収めています。単GPU時はRTX 5080だけで15,827MiBまで張り付いていたのが、デュアルでは1枚あたりの負担が下がりました。32GBの大きな器に入れ替わったのではなく、16GB+16GBに割って載せ直した、という理解が正確です。
VRAMの考え方は「合算」ではなく「分散で収め切る」。この違いを押さえておくと、どのモデルなら2枚で収まりそうかの見当が付けやすくなります。
速くなった代わりに、初回応答の近似指標は悪くなる?
今回の測定では、デュアル化でTTFTが大きく悪化することはありませんでした。初回応答の近似指標(ここでは load_duration+prompt_eval_duration から見た値)は、ウォーム状態のデュアル構成で各回270〜430ms程度。ただしこれは stream=false のレスポンスメトリクスからの近似で、実際に最初のトークンが到着した時刻を測ったものではありません(厳密な TTFT は stream=true で別途測定が必要)。生成スループットが約1.9倍になりながら、この近似指標も数百msに収まっています。重みを2枚に分割してロードしても、モデルが常駐していれば応答の立ち上がりは軽いままでした。
ただし、TTFTはモデルのロード状態(コールド/ウォーム)やプロンプト長で大きく前後します。初回ロードを含むコールド状態では、どちらの構成でも立ち上がりに数秒かかります。ここで挙げた数百msはウォーム状態(一度ロードして常駐させた後)の値で、絶対値というより「デュアル化で初回応答が目立って悪化することはなかった」という傾向として受け取ってください。
他の構成でも効く? ノートPCでは無理?
「2枚目を足す」手は、デスクトップに外付けGPUを足せる構成だからこそ取れる選択肢です。ノートPCではまず難しい。ゲーミングノート向けのGPUはVRAMが控えめで、たとえばRTX 5060 Laptop GPUは8GB(GDDR7)。デスクトップ版のRTX 5060 Ti 16GBとは型番が似ていても別物で、配布約24GBのqwen3.5:35b-a3bのような大型MoEは収まりません。一般的なノートPCは内蔵GPUを増設できないため、今回と同じ2枚構成は取りにくいです。上位のLaptop GPUや外付けGPU対応機は仕様が異なるので、個別の確認が必要です。
ミニPCも同様の事情を抱えます。16GBのDDR5をCPUとGPUで共有するタイプ(Ryzen系APU構成など)は、メモリ容量こそ確保できても、共有メモリの帯域が専用VRAMほど出ないため、大型MoEを高速に回す用途には向きません。対してRTX 5060 Ti 16GBのようなデスクトップ向けカードは、Oculink経由で2枚目に足す現実的な選択肢になります(対応ポート・BIOS/UEFI・電源・冷却・ドライバでのCUDA認識は機種ごとに個別確認が必要。入手性や価格も時期・地域・販売店で変わります)。
| 主役モデル | Qwen3.5 35B-A3B(Ollama: qwen3.5:35b-a3b・Q4_K_M・配布約24GB・ID 3460ffeede54)(MoE) |
|---|---|
| RTX 5080単体(実測) | 65.99 tok/s/オフロード37.8%(モデル全体の約8.4GiBがCPU側)/GPU全体15,827MiB/約115W |
| RTX 5080+RTX 5060 Ti デュアル(実測) | 125.87 tok/s/オフロード0%(全量VRAM常駐)/5080=13,898MiB+5060 Ti=11,096MiB(いずれもGPU全体・ベースライン込み)/約103W+約95W |
| 速度比 | 約1.9倍(同一モデル・同一プロンプト・num_predict=512・num_ctx=8192・think未指定統一・各3回平均の参考比較。temperature/seed は未固定) |
| 観測された要因 | CPUオフロードの解消と速度向上が同時に発生(VRAM不足の解消が主因と推定)。Oculink x4帯域そのものの影響は未測定 |
| 計測環境 | 当サイトの検証環境(Ollama 0.30.7・num_ctx=8192・3回計測の平均、計測日2026-06-13) |
まとめ:よくある疑問を一気に整理
16GBで大型MoEを動かすときの疑問は、突き詰めると1つの軸に集まります。モデルがVRAMに収まっているか。/api/psで size と size_vram が一致していれば収まっていて、速度が出ないなら別の原因。size_vram が小さくCPUへあふれているなら、2枚目のGPUを足してフルVRAM常駐に戻すと速度が伸びます。当サイトの検証ではqwen3.5:35b-a3bが、単GPUの37.8%オフロード・65.99 tok/sから、デュアルのオフロード0%・125.87 tok/sへ、約1.9倍になりました。これは特定の構成・モデル・条件での実測で、すべての35B級MoEや任意の2枚構成で同じ比率を保証するものではありません。
ここで本文の条件を崩さず確認しておくと、少なくとも今回の構成では主な改善要因は容量(あふれの解消)と推定され、帯域そのものの影響は未評価です。単GPUで約38%あふれていたことと、Oculink越しでもデュアルで約1.9倍が出てオフロードが消えた事実が、容量主因という推定の根拠です。一方で「2枚目を足せば何でも速くなる」わけではなく、すでに収まっているモデルでは効果は薄い。VRAMは合算32GBになるのではなく、各16GBへ分割して載せ直す動きであることも要点でした。デュアル化で初回応答(TTFT)が大きく悪化することは、今回の測定では見られませんでした。
手持ちのGPUで35B級MoEを速度面で快適に動かしたいなら、まずそのモデルが/api/psでVRAMに収まっているかを確認してください。なお本記事は qwen3.5:35b-a3b タグ固有の実測で、より新しい Qwen3.6 系(35B-A3B など)は測定していません。あふれて速度を落としているなら、2枚目のGPUが選択肢に入ります。ノートPCやミニPCでは同じ手が取りにくい点も含めて、構成を選ぶ判断材料になります。
参考資料
- Ollama 公式ライブラリ: qwen3.5 モデルページ
- Qwen 公式: Qwen3.5-35B-A3B モデルカード(35B total / 3B activated)
- Ollama 公式FAQ: 複数GPUでのモデル分散とGPU/CPU配置の確認方法
- NVIDIA 公式: GeForce RTX 5080 製品仕様
- NVIDIA 公式: GeForce RTX 5060 Ti 製品仕様
当サイトはAmazonアソシエイト・プログラムの参加者です。Amazonのアソシエイトとして、当サイトは適格販売により収入を得ています。

