2枚目のGPUがはっきり役立つのは、1枚のVRAMに収まらない大型LLMと、複数の処理を同時に動かす場面です。逆に、1枚で収まる画像生成や小型LLMでは、2枚目が遊んでしまうことも少なくありません。
GPUを2枚にすると、ローカルAIは何が変わるのか。当サイトは RTX 5080+RTX 5060 Ti(各16GB)を Oculink で2枚運用し、ローカルLLM・画像生成で実測してきました。良くなるケースと変わらないケースの両方を、実測したまま紹介します。
GPU2枚は「万能」ではありません。効くのは、1枚に収まらない大型LLMの分割と、複数処理の同時実行です。
画像生成や1枚に収まるモデルでは2枚目が遊びがち。VRAMは常に単純加算にはならず、対応実装(llama.cpp・vLLM等)かどうかで効果が分かれます。
VRAMは2枚で足し算できるのか
よくある疑問が「2枚にすればVRAMは合算(足し算)できるのか」です。答えは 単純な足し算ではありません。2枚のVRAMが1つの大きなVRAMになるわけではなく、1つのモデルはそのままでは1枚にしか載りません。
ただし、モデルを層ごとに2枚へ分けて載せれば(モデル分割)、合算32GBに収まる大型モデルを実際に動かせます。当サイトでも、1枚(16GB)からあふれる qwen3.5:35b-a3b を2枚に分けて動かし、約1.9倍に高速化しました。一方で、合算32GBも超える超大型モデル(70B級など)は、この方法でも実用的な速度では動きません。
2枚にして良くなるケース/変わらないケース
◎ 2枚にして良くなるケース
- 1枚(16GB)に乗り切らない大型・MoEモデル。あふれてしまう分が2枚に収まり、速くなります(例:16GBで約38%あふれる qwen3.5:35b-a3b が約1.9倍)。
- 1枚では起動しない 27B〜32B 級。16GB×2=合算32GBで、はじめて実用的な速度で動きます。
- 複数の作業を同時に動かしたいとき。たとえば、ComfyUI やローカルLLM を2つ、別々のGPUに振り分けて同時に動かせます。
△ 2枚にしても変わらないケース・注意点
- 1枚に収まるモデルは、2枚目が遊びます。使われないので、速度はほとんど変わりません。
- 1枚で終わる画像生成は、2枚に分かれません。同時に2つ動かすときに、はじめて2枚目が活きます。
- Oculink(PCIe 4.0 x4)の通信速度。ふだんの推論には十分ですが、モデルの読み込みなど一部の処理では差が出ます。
- 2枚(合算32GB)でも収まらない超大型モデルもあります。70B級(Q4で約44GB〜)はRAMへの退避を併用しても実用速度が出ず、当サイト実機の32GBでは動かせません。
用途別・2枚目の効きやすさ
| 用途 | 2枚目の効果 | 理由 |
|---|---|---|
| 16GBに収まる小型LLM | 小さい | 1枚で完結しやすい |
| 27〜32B級LLM | 大きい場合あり | VRAM分割で載る可能性 |
| 画像生成(1ジョブ) | 小さい | 1枚のGPUで処理されやすい |
| 画像生成(2ジョブ同時) | 大きい | GPUごとに処理を分けられる |
| ComfyUI 複数ワークフロー | 条件次第 | ノード・処理の分離が必要 |
| 動画生成 | 条件次第 | VRAMとシステムRAMの両方が重い |
実測ハイライト
構成と始め方
2枚目は Oculink eGPU ドック(MINISFORUM DEG1)で増設しています。Ollama では2枚目が認識されない場合があり、OLLAMA_SCHED_SPREAD 等の設定で2枚に振り分けます。外付けの選択肢として Thunderbolt 5 もあります。
- MINISFORUM DEG1 Oculink eGPUドック 実機レビュー(半年運用・帯域実測)
- Oculink接続のGPUがOllamaに認識されない原因と OLLAMA_SCHED_SPREAD
- Thunderbolt 5 でローカルAIを外付け強化する選択肢
デュアルGPU 関連記事
ローカルLLMで速くする
- デュアルGPUでローカルLLMを動かす|Ollama自動分散の実測と二枚目が遊ぶ落とし穴
- 16GBで38%あふれる qwen3.5:35b-a3b、2枚目で収まって約1.9倍に
- ローカルLLMの電力あたり生成速度|両GPU合算電力でMoEはdense型の何倍効率的か
- RTX 5080でMoEモデルだけ消費電力が1/4に落ちる
画像生成・ComfyUI
比較・周辺
関連ガイド
検証環境
本ページの実測値は当サイトの検証機材によるものです:Intel Core i7-14700F/96GB DDR5/RTX 5080(16GB)+RTX 5060 Ti(16GB)。2枚目は Oculink(MINISFORUM DEG1)でデュアルGPU構成。測定条件の詳細は 検証環境ページ をご覧ください。