VRAM 16GBで動かすローカルLLM完全ガイド|モデル別の早見表と「収まる・あふれる」の境界を実測で解説

VRAM 16GBに関する記事のアイキャッチ画像 - VRAM 16GBで動かすローカルLLM完全ガイド GPU・グラフィックボード

VRAM 16GBとは、GPUが搭載するビデオメモリ容量のこと。ローカルLLM推論では、主にモデルの重み、KVキャッシュ、実行バッファなどの置き場として使われます。

VRAM 16GBのGPUで動くローカルLLMは、量子化を前提にすれば7B〜14B級が快適、32B級は条件次第、70B級は16GB単体では快適に動かない(オフロード/複数GPU前提)。この境界を決めるのはモデルの重みだけではありません。文脈長(num_ctx)に応じて膨らむKVキャッシュなどの確保分も16GBを圧迫します。まずは早見表で使いたいモデルが収まるかを確認し、その後で「なぜそうなるのか」を仕組みから見ていきます。

この記事の要点

  • ・VRAM 16GBで快適に動くのは7B〜14B級、32B級は量子化とオフロード次第、70B級は16GB単体では快適に動かない(オフロード/複数GPU前提)
  • ・収まるかどうかは「モデル重み+KVキャッシュなどの確保分+実行バッファ」の合計で決まる
  • ・同じモデルでも量子化(Q4/Q8/FP16)とnum_ctxで収まる・あふれるが反転する

VRAM 16GBで動くローカルLLM早見表|収まる・あふれる・動かないの一覧

最初に結論を表で渡します。下の早見表は、パラメータ帯と量子化の組み合わせごとに、16GBのGPU単体で「快適に収まる/ギリギリ/オフロード前提/動かない」を整理したもの。自分が動かしたいモデルの規模を縦軸で探し、量子化を横軸で見れば、おおよその判定が3スクロール以内で付きます。

早見表の見方|「収まる」が何を意味するか

ここでいう「収まる」は、モデルの重みと推論に必要なメモリが16GBの中に入り、CPUへのオフロードなしにGPUだけで動く状態を指します。「ギリギリ」は、短い文脈なら入るが、num_ctxを伸ばすとあふれる境界帯。「オフロード前提」は、一部の層をCPU(システムRAM)へ逃がさないと載らない状態を意味します。

注意したいのが、この判定は固定値ではないという点。同じモデルでも、文脈長を長く取ればKVキャッシュなどの確保分が増え、収まっていたものがあふれます。早見表はあくまで「標準的な文脈長で動かした場合の目安」として読んでください。実測値による裏付けは後半のセクションで示します。

7B〜70Bまでモデル規模別のVRAM目安一覧

下の数値は「パラメータ数×量子化のビット幅」から導いた重みの概算です。実際にはこれに推論時のバッファとKVキャッシュなどの確保分が上乗せされるため、重みの目安に2〜3GB程度の余裕を見て判断するのが現実的。なお、Gemma 4 E4Bのように表記上の有効パラメータと実メモリがズレるモデルでは、同じ量子化でも目安より上振れします。

パラメータ帯 Q4量子化の重み目安 Q8量子化の重み目安 16GB単体での可否 主な実行ソフト
3B〜4B級 約2〜5GB 約4〜9GB 余裕で収まる Ollama / LM Studio / llama.cpp
7B〜8B級 約4〜5GB 約7〜8GB 快適に収まる Ollama / LM Studio / llama.cpp
12B〜14B級 約8〜9GB 約14〜15GB Q4は収まる/Q8はKVキャッシュ込みで超えやすい Ollama / LM Studio / llama.cpp
27B〜32B級(Dense) 約16〜20GB 約32GB以上 Q4でもあふれ気味/オフロード前提 llama.cpp / Ollama
MoE型(30B〜35B-A3B等) 約16〜21GB 条件次第 Q4_K_M級は16GB単体ではあふれやすい(オフロード前提) llama.cpp / Ollama
70B級 約40GB 約70GB 16GB単体への全量GPUロードは不可 オフロード/複数GPU

表で押さえておきたいのが、MoE(Mixture of Experts)型の扱い。MoE型は各トークンで使う活性パラメータが小さいため、同じ総パラメータ数のDense型より計算量や生成速度の面で有利になりやすい。ただし、重みをGPUに全量載せる場合のVRAMは総パラメータ側に近づくため、「活性3Bだから3Bモデル並みのVRAMで済む」とは限らない。実際、Qwen3系の30B-A3BはQ4_K_Mで約18.6GBあり16GB単体には載らず、Gemma 4 26B A4BもQ4帯で14GB超と、活性パラメータ相当の小ささにはなりません。16GB環境では、低ビット量子化やMoE重みのCPU配置、GPU/CPUオフロードを組み合わせて成立するケースが多い。このあたりの境界は後半の実測で具体的に示します。

逆に、Dense型の32B級をFP16(量子化なし)で動かすのは16GBでは現実的ではありません。重みだけで60GB超を要するため、24GBや32GBのGPUでも単体では厳しい帯。16GBで32B級に手を出すなら、Q4まで落とすかオフロードを使うかの二択になります。

なぜ16GBで「収まる・あふれる」が決まるのか|VRAM消費の内訳と量子化

VRAM使用量は単一の数字ではなく、いくつかの要素の合計で決まります。内訳をざっくり分けると、モデルの重み、KVキャッシュなどの確保分、推論時の実行バッファの3つ。このうち最も大きいのが重みですが、文脈を長く取る使い方ではKVキャッシュなどの確保分が無視できない大きさに育ちます。

モデル重みの計算|パラメータ数×量子化ビット幅

モデルの重みが占めるVRAMは、おおまかに「パラメータ数×1パラメータあたりのビット幅÷8」で求まります。FP16なら1パラメータ16ビット(2バイト)なので、7Bモデルは約14GB。これがQ8(8ビット相当)になると半分の約7GB、Q4(4ビット相当)ならさらに半分の約3.5〜4GBまで下がる、というのが量子化の効きどころ。

つまり同じ7Bモデルでも、FP16なら16GBに対してかなり窮屈、Q4なら余裕で収まります。「7Bが動くか」ではなく「どの量子化の7Bが動くか」で考えるのが正しい見方。量子化はモデルの重みを圧縮する技術で、ビット幅を落とすほどVRAMは小さくなりますが、その分だけ精度がわずかに削られます。このトレードオフの詳細は次のセクションで扱います。

ここで効いてくるのが、パラメータ数と量子化の掛け算で重みが決まるという関係。14B級をQ4で動かすと約8〜9GB、32B級をQ4で動かすと約18〜20GB。16GBという容量に対して、14B級Q4は十分なマージンがありますが、32B級Q4は重みだけで容量を超えるか、超えなくても推論バッファ込みであふれます。この差が「収まる・あふれる」の分かれ目。

context長とKVキャッシュなどの確保分がVRAMを食う仕組み

見落とされがちなのが、重みとは別にVRAMを消費するKVキャッシュなどの確保分。LLMが文章を生成する際、過去のトークンの状態を保持しておくためのメモリで、文脈長(num_ctx)に比例して増えていきます。短い質問応答なら小さく済みますが、長文の要約や大きなコードベースを読ませる用途では、この確保分が数GB単位で膨らむことがある。

そのため、重みが16GBに収まっていても安心はできません。num_ctxを4096から32768へ伸ばせば、確保分が大きく増えて16GBからあふれる、という現象が起きます。「モデルは載ったのに長い文脈を渡したら落ちた」というケースの多くは、これが原因。

モデルの重みが16GBに収まっても、num_ctx(文脈長)を大きく取るとKVキャッシュなどの確保分が膨らみ、推論の途中でVRAM不足になることがあります。長い文脈を扱う用途では、重みに余裕を持たせた量子化を選ぶか、文脈長を必要な範囲に絞ること。

増えた分をすべて「KVキャッシュ分」と言い切れない点にも触れておきます。実際には注意機構のための一時バッファや、推論エンジンが確保する作業領域なども含まれるため、ここでは「KVキャッシュなどの確保分」とまとめています。いずれにせよ、文脈長を伸ばすほどVRAMの余裕が削られる、という方向性は変わりません。

量子化と文脈長、この2つを動かすと収まり方が変わるため、早見表の判定は「標準的な文脈長での目安」と捉えるのが正確。実際の境界がどこにあるのかは、数値で確かめるのが一番確実です。次は当サイトの検証環境での実測値で、16GBの収まり方を裏付けていきます。

モデルサイズ別の実際|7B・14B・32Bを16GBで動かす境界線

ここからは早見表の概算を、当サイトの検証環境での実測値で深掘りします。VRAM使用量はいずれもnvidia-smiのmemory.used由来のGPU全体の使用量(デスクトップ表示などのベースライン込み、単位はMiB)で、モデル単体の増分とは別物。計測日は2026-06-12、Ollamaで3回計測の平均、num_tokens=512、思考モードを持つモデル(gemma4等)はthink=falseで条件を揃え、num_ctxは各既定値です。GPUの世代やドライバ、モデルのタグ更新で数値は動くため、以下は2026-06-12時点のスナップショットとして読んでください。

まず、本ガイドが入門帯の第一候補に挙げるRTX 5060 Ti 16GB単体での実測早見表。重みはいずれもQ4_K_M級です。

モデル(Q4_K_M) パラメータ 生成速度(tok/s) VRAM(GPU全体) 16GB単体の判定
llama3.2:3b 3B 157.7 3353MiB(3.27GiB) 余裕
phi4-mini:3.8b 3.8B 133.6 4065MiB(3.97GiB) 余裕
gemma3:4b 4B 115.7 4011MiB(3.92GiB) 余裕
mistral:7b 7B 84.8 5513MiB(5.38GiB) 快適
llama3.1:8b 8B 79.1 5961MiB(5.82GiB) 快適
deepseek-r1:8b 8B 73.2 6177MiB(6.03GiB) 快適
qwen3.5:9b 9B 59.8 8073MiB(7.88GiB) 快適
gemma3:12b 12B 47.9 9209MiB(8.99GiB) 収まる
qwen3:14b 14B 42.7 10117MiB(9.88GiB) 収まる
phi4:14b 14B 44.0 10445MiB(10.20GiB) 収まる
codestral:22b 22B 18.2 14025MiB(13.70GiB) ギリギリ(dense実用の分水嶺)
gemma4:26b(MoE/A4B) 26B 31.0 14827MiB(14.48GiB) 天井近く
qwen3.5:35b-a3b(MoE) 35B-A3B 15.4 14885MiB(14.54GiB) 16GB超・一部CPUオフロード前提・低速
qwen3.5:27b / gemma4:31b / qwen3:32b(Dense) 27〜32B VRAM不足で起動せず(SKIPPED)

この帯から読み取れること。14B級まではVRAMに4〜6GiBの余裕を残して快適に動きます。22BのDense(codestral)は13.7GiBを使い18tok/s台まで落ち、ここがDense型で実用に耐える下限。27〜32BのDense型はそもそも起動しません(SKIPPED)。一方、総35BのMoE(A3B)型は、重みがQ4でも約18.6GB級で16GBには収まりきらず、一部をCPUへ逃がして動きます(GPU側で14.5GiB前後を使い、速度は15tok/s台)。同じMoEでも総26BのGemma 4 A4Bは14.5GiB前後で収まって31tok/s出ますが、これも活性パラメータの小ささに反してVRAMは総パラメータ側に効いています。活性が小さくても重みVRAMまで小さくなるわけではない——MoEを「小さいモデル」と早合点しないことが、16GB選びの勘所です。最新のqwen3-coder:30bやqwen3.6:35b-a3bも、16GB単体ではこのMoE帯と同様に窮屈で、快適に使うなら2枚目GPUでオフロードを解消した実測の構成が前提になります。

VRAM 16GB(RTX 5060 Ti)に各モデルが収まるか RTX 5060 Ti 16GB単体・2026-06-12実測。3〜14B級は4〜6GiBの余裕で快適、22BのcodestralとMoE型(26B/35B-A3B)は14GiB前後で天井に近づき、27〜32B denseは16GB超で起動しない。数値はGPU全体のVRAM使用量とtok/s。 VRAM 16GBに収まるか — RTX 5060 Ti 16GB 実測(2026-06・GPU全体使用量) VRAM 16GB 上限 llama3.2:3b 3.3GiB 157.7 tok/s・余裕 mistral:7b 5.4GiB 84.8 tok/s・快適 gemma3:12b 9.0GiB 47.9 tok/s・収まる phi4:14b 10.2GiB 44.0 tok/s・収まる codestral:22b 13.7GiB 18.2 tok/s・分水嶺 gemma4:26b (MoE) 14.5GiB 31.0 tok/s・天井近く qwen3.5:35b-a3b (MoE) 14.5GiB 15.4 tok/s・一部CPUへ 27〜32B dense 16GB超 → 起動せず 緑=快適に収まる/琥珀=14GiB前後で天井近く/赤=16GB超で単体不可。MoEは活性が小さくても重みVRAMは総パラメータ側に効く。
RTX 5060 Ti 16GB単体での各モデルのVRAM使用量(GPU全体・2026-06-12実測)。22Bが実用の分水嶺、27〜32B denseは起動せず。

続いて、同じ16GBでも上位のRTX 5080単体での実測を見ます。コア数が多いぶん同じモデルでも速く、容量の使い切り方の違いも見えてきます。表に記載するVRAM使用量も同じくGPU全体の使用量(MiB)です。

7B〜14B(快適帯)の実測と推奨設定

7B〜8B級は16GBに対して余裕のある帯。当サイトの検証環境(RTX 5080単体)では、mistral 7B級が153.0 tokens/sec・GPU全体で7709MiB(7.53GiB)、llama3.1系の8B級が141.2 tokens/sec・8189MiB(8.00GiB)を記録しました。いずれもGPU全体使用量が8GiB前後で、16GBの半分程度。文脈長を多少伸ばしても余裕があり、対話用途なら最も扱いやすい帯です。

12B〜14B級になると、収まりつつも容量の使用率が上がります。同じ環境でgemma4の12B級が73.8 tokens/sec・11042MiB(10.78GiB)、14B級のphi4が78.2 tokens/sec・12171MiB(11.89GiB)、qwen3系の14B級が76.8 tokens/sec・11887MiB(11.61GiB)。GPU全体で11〜12GiBを使う計算で、16GBに対しては4GiB前後のマージンが残ります。この余裕が文脈長を伸ばす際の緩衝になる。14B級は速度と賢さのバランスが良く、16GBのGPUで常用するなら有力な帯です。

速度の傾向としては、パラメータ数が増えるほどtokens/secは下がります。8B級で約140 tokens/sec、14B級で約75 tokens/secと、規模が倍になると速度はおおむね半分前後。対話のレスポンスを重視するなら8B級、回答の質を取るなら14B級、という使い分けが現実的な落とし所になります。

20B台〜35B級の境界帯|16GBで収まる・あふれるの実際

32B級が16GBの本当の境界。当サイトの検証環境(RTX 5080単体)では、codestral 22B級が30.3 tokens/sec・15380MiB(15.02GiB)、Gemma 4 26B A4B(MoE型)が36.4 tokens/sec・15612MiB(15.25GiB)を記録しました。どちらもGPU全体使用量が15GiB台で、16GBのほぼ天井まで使い切っている状態。動作は確認できましたが、ここから文脈長を大きく伸ばす余地はほとんど残っていません。実際、qwen3の32B級(Dense)は同じ環境で計測がN/A(完走せず)となっており、Dense型の32B級は16GB単体では厳しい、という結果でした。

ここで効いてくるのがMoE型の存在。Qwen3.5-35B-A3B(MoE)は、RTX 5080単体ではVRAMを15755MiB(15.39GiB)まで使い切り、それでも収まりきらない分が約4割ほどCPUへあふれた状態で動作します。総パラメータは35Bでも活性パラメータが小さいMoEのため、CPUへ一部を逃がせばDense型の32B級が載らない16GBでも一応動く。ただし速度は18.9 tokens/secと、対話には少し待ちを感じる水準まで落ちます。「35Bが16GBで動く」のは事実ですが、CPUオフロード前提で快適とまでは言い切れないのが境界帯の正直なところ。

OOM(メモリ不足)を避けるための実務的な指針としては、20B台〜32B級に手を出すなら、Q4以下の量子化を選び、num_ctxを欲張らないこと。特に30B〜35B級のMoEや32B Denseでは、Q4_K_Mでも16GB単体に全量GPUロードできない場合があるため、低ビット量子化やCPU/GPUオフロードを前提に考えるのが安全です。当サイトの検証で15GiB台まで使い切っているモデルは、文脈長を伸ばした瞬間にあふれる可能性が高い帯です。ここで確認できたのは「標準的な文脈長で動作した」という範囲であり、長い文脈での上限までは未検証。それ以上を求めるなら、2枚目のGPUへ一部を逃がすオフロードという次の手が必要になります。

16GBを超えるモデルを動かす|CPUオフロードとllama.cppの設定

「あふれる」モデルを諦める必要はありません。VRAMに載りきらない層をRAM側へ逃がすのがGPU/CPUオフロード。llama.cppならGPUに載せる層数を指定し、残りをCPUに分担させます。

llama.cppではオフロード層数の指定(GPUに何層載せるか)でVRAMと速度を調整します。層数を増やすほどGPU処理が増えて速くなりますが、その分VRAMを食う。16GBに収まる限界まで層を載せ、あふれる分だけをCPUに回すのがセオリーです。ここで効いてくるのがRAM容量。CPU側に逃がした層はシステムメモリを使うため、32GB以上、できれば64GB級あると大型モデルでも余裕が出ます。Ollamaは収まらない分を自動でCPUに振り分ける挙動。手軽な反面、思った以上にCPU側へ逃げて速度が落ちる場合もあります。

速度の落ち方は実測で確認できました。Qwen3.5-35B-A3Bは、RTX 5080単体(超過分がCPUへあふれた状態)だと18.9 tokens/secでした。これを2枚目のRTX 5060 Ti(Oculink接続)へ分散してCPUあふれを解消すると124.9 tokens/secまで上昇。当サイトの検証環境(RTX 5080+5060 Ti・num_ctx=4096)での値です。1枚で無理に押し込むより、空いたGPUへ逃がすほうが速い、という結果。CPUオフロードはRAMへ逃がす分どうしても遅くなりますが、「動かない」が「動く」に変わる現実解です。

16GB VRAMのGPU選びと用途別の落とし所

結局どの16GB GPUを買うか。当サイトで使っている2機種に、コスパ候補のRTX 5070 Tiを加えて整理します。

項目 RTX 5060 Ti 16GB RTX 5070 Ti RTX 5080
VRAM 16GB GDDR7 16GB GDDR7 16GB GDDR7
CUDAコア 4608 8960 10752
TDP 180W 300W 360W
参考価格(2026年6月・国内実売の確認時点。在庫や為替で変動) 90,000円〜 175,000円〜 200,000円台〜
AI用途の目安 16GB帯の入門・LLM推論 コスパ重視の主力 速度重視の上位

3機ともVRAMは16GBで、収まるモデルの大きさは同じ。違いはCUDAコア数とTDP、つまり「同じモデルがどれだけ速く回るか」です。kakaku.com 2026-06時点の参考価格でも、RTX 5060 Ti 16GBは9万円台から手が届きます。

LLM推論が主目的なら、まずRTX 5060 Ti 16GB。16GBという容器の大きさが収まるモデルを決め、容量が同じなら入門帯でも同じモデルが動きます。速度に投資する余裕があればRTX 5080。画像生成やComfyUIも兼ねるなら、生成枚数がCUDAコア数に響くため5070 Ti以上が快適です。

まとめ

16GBで動くかどうかは、モデルの大きさ・量子化・文脈長の3つで決まります。7B〜14B級はQ4で余裕、32B級はQ4でギリギリ、Dense型の70B級は16GB GPU単体への全量ロードは現実的でなく、CPU/RAMオフロードや複数GPUが前提です。収まらないときは量子化を落とすか、CPU/2枚目GPUへのオフロードという次の一手。当サイトの検証では、35B-A3Bを1枚で18.9、2枚で124.9 tokens/secと差が出ました。まず使いたいモデルの規模を決め、それに16GBが足りるかで判断するのが近道です。

よくある質問

Q. VRAM 16GBで32Bモデルは動きますか?

Dense型の32B級はQ4でもギリギリです。当サイトの検証環境(RTX 5080単体)ではcodestral 22B級が15380MiB(15.02GiB)とほぼ天井。MoE型の35B-A3Bは15755MiB(15.39GiB)までVRAMを使い切り、超過分がCPUへあふれるため速度は18.9 tokens/secまで落ちます。

Q. 量子化はQ4とQ8のどちらを選ぶべきですか?

16GBに収めたいならQ4が現実的です。Q8は精度が高い分VRAM消費が約2倍になり、中型モデルでは収まらなくなります。一般的にQ4_K_Mは品質とサイズのバランスが良く、定番の実用ラインの一つです(用途によってはIQ系・UD系も選択肢)。

Q. オフロードすると遅くなりますか?

CPU側へ逃がすと遅くなりますが、2枚目のGPUへ逃がす場合は速くなることもあります。当サイトの検証では35B-A3Bを1枚から2枚構成にして約6.6倍に向上しました。

参考資料

当サイトはAmazonアソシエイト・プログラムの参加者です。Amazonのアソシエイトとして、当サイトは適格販売により収入を得ています。

タイトルとURLをコピーしました