デュアルGPUでローカルAIはどう変わるか｜2枚運用・Oculink・VRAM合算の実測

2枚目のGPUがはっきり役立つのは、1枚のVRAMに収まらない大型LLMと、複数の処理を同時に動かす場面です。逆に、1枚で収まる画像生成や小型LLMでは、2枚目が遊んでしまうことも少なくありません。
GPUを2枚にすると、ローカルAIは何が変わるのか。当サイトは RTX 5080＋RTX 5060 Ti（各16GB）を Oculink で2枚運用し、ローカルLLM・画像生成で実測してきました。良くなるケースと変わらないケースの両方を、実測したまま紹介します。

GPU2枚は「万能」ではありません。効くのは、1枚に収まらない大型LLMの分割と、複数処理の同時実行です。

画像生成や1枚に収まるモデルでは2枚目が遊びがち。VRAMは常に単純加算にはならず、対応実装（llama.cpp・vLLM等）かどうかで効果が分かれます。

VRAMは2枚で足し算できるのか
2枚にして良くなるケース／変わらないケース
1. ◎ 2枚にして良くなるケース
2. △ 2枚にしても変わらないケース・注意点
用途別・2枚目の効きやすさ
実測ハイライト
構成と始め方
デュアルGPU 関連記事
関連ガイド
検証環境

VRAMは2枚で足し算できるのか

よくある疑問が「2枚にすればVRAMは合算（足し算）できるのか」です。答えは 単純な足し算ではありません。2枚のVRAMが1つの大きなVRAMになるわけではなく、1つのモデルはそのままでは1枚にしか載りません。

ただし、モデルを層ごとに2枚へ分けて載せれば（モデル分割）、合算32GBに収まる大型モデルを実際に動かせます。当サイトでも、1枚（16GB）からあふれる qwen3.5:35b-a3b を2枚に分けて動かし、約1.9倍に高速化しました。一方で、合算32GBも超える超大型モデル（70B級など）は、この方法でも実用的な速度では動きません。

2枚にして良くなるケース／変わらないケース

◎ 2枚にして良くなるケース

1枚（16GB）に乗り切らない大型・MoEモデル。あふれてしまう分が2枚に収まり、速くなります（例：16GBで約38%あふれる qwen3.5:35b-a3b が約1.9倍）。
1枚では起動しない 27B〜32B 級。16GB×2＝合算32GBで、はじめて実用的な速度で動きます。
複数の作業を同時に動かしたいとき。たとえば、ComfyUI やローカルLLM を2つ、別々のGPUに振り分けて同時に動かせます。

△ 2枚にしても変わらないケース・注意点

1枚に収まるモデルは、2枚目が遊びます。使われないので、速度はほとんど変わりません。
1枚で終わる画像生成は、2枚に分かれません。同時に2つ動かすときに、はじめて2枚目が活きます。
Oculink（PCIe 4.0 x4）の通信速度。ふだんの推論には十分ですが、モデルの読み込みなど一部の処理では差が出ます。
2枚（合算32GB）でも収まらない超大型モデルもあります。70B級（Q4で約44GB〜）はRAMへの退避を併用しても実用速度が出ず、当サイト実機の32GBでは動かせません。

用途別・2枚目の効きやすさ

用途	2枚目の効果	理由
16GBに収まる小型LLM	小さい	1枚で完結しやすい
27〜32B級LLM	大きい場合あり	VRAM分割で載る可能性
画像生成（1ジョブ）	小さい	1枚のGPUで処理されやすい
画像生成（2ジョブ同時）	大きい	GPUごとに処理を分けられる
ComfyUI 複数ワークフロー	条件次第	ノード・処理の分離が必要
動画生成	条件次第	VRAMとシステムRAMの両方が重い

実測ハイライト

約1.9倍

16GBで約38%あふれる qwen3.5:35b-a3b が、2枚目で収まって約1.9倍に（RTX 5080＋5060 Ti・Oculink）

実測を見る →

消費電力約1/4

大型MoEモデルは消費電力が大きく下がり（同規模dense型比・RTX 5080実測）、両GPU合算の電力効率でもdense型を上回る

実測を見る →

2枚目が遊ぶ条件

Ollama 自動分散の実測。どんな時に2枚目が使われ、どんな時に遊ぶのかを切り分け

実測を見る →

構成と始め方

2枚目は Oculink eGPU ドック（MINISFORUM DEG1）で増設しています。Ollama では2枚目が認識されない場合があり、OLLAMA_SCHED_SPREAD 等の設定で2枚に振り分けます。外付けの選択肢として Thunderbolt 5 もあります。

デュアルGPU 関連記事

ローカルLLMで速くする

画像生成・ComfyUI

ComfyUI マルチGPU運用ガイド｜GPU 2枚で並列処理を実測

比較・周辺

検証環境

本ページの実測値は当サイトの検証機材によるものです：Intel Core i7-14700F／96GB DDR5／RTX 5080（16GB）＋RTX 5060 Ti（16GB）。2枚目は Oculink（MINISFORUM DEG1）でデュアルGPU構成。測定条件の詳細は検証環境ページをご覧ください。

VRAMは2枚で足し算できるのか

2枚にして良くなるケース／変わらないケース

◎ 2枚にして良くなるケース

△ 2枚にしても変わらないケース・注意点

用途別・2枚目の効きやすさ

実測ハイライト

構成と始め方

デュアルGPU 関連記事

ローカルLLMで速くする

画像生成・ComfyUI

比較・周辺

関連ガイド

検証環境