VRAM 16GBとは、GPUが搭載するビデオメモリ容量のこと。ローカルLLM推論では、主にモデルの重み、KVキャッシュ、実行バッファなどの置き場として使われます。
VRAM 16GBのGPUで動くローカルLLMは、量子化を前提にすれば7B〜14B級が快適、32B級は条件次第、70B級は16GB単体では快適に動かない(オフロード/複数GPU前提)。この境界を決めるのはモデルの重みだけではありません。文脈長(num_ctx)に応じて膨らむKVキャッシュなどの確保分も16GBを圧迫します。まずは早見表で使いたいモデルが収まるかを確認し、その後で「なぜそうなるのか」を仕組みから見ていきます。
- ・VRAM 16GBで快適に動くのは7B〜14B級、32B級は量子化とオフロード次第、70B級は16GB単体では快適に動かない(オフロード/複数GPU前提)
- ・収まるかどうかは「モデル重み+KVキャッシュなどの確保分+実行バッファ」の合計で決まる
- ・同じモデルでも量子化(Q4/Q8/FP16)とnum_ctxで収まる・あふれるが反転する
VRAM 16GBで動くローカルLLM早見表|収まる・あふれる・動かないの一覧
最初に結論を表で渡します。下の早見表は、パラメータ帯と量子化の組み合わせごとに、16GBのGPU単体で「快適に収まる/ギリギリ/オフロード前提/動かない」を整理したもの。自分が動かしたいモデルの規模を縦軸で探し、量子化を横軸で見れば、おおよその判定が3スクロール以内で付きます。
早見表の見方|「収まる」が何を意味するか
ここでいう「収まる」は、モデルの重みと推論に必要なメモリが16GBの中に入り、CPUへのオフロードなしにGPUだけで動く状態を指します。「ギリギリ」は、短い文脈なら入るが、num_ctxを伸ばすとあふれる境界帯。「オフロード前提」は、一部の層をCPU(システムRAM)へ逃がさないと載らない状態を意味します。
注意したいのが、この判定は固定値ではないという点。同じモデルでも、文脈長を長く取ればKVキャッシュなどの確保分が増え、収まっていたものがあふれます。早見表はあくまで「標準的な文脈長で動かした場合の目安」として読んでください。実測値による裏付けは後半のセクションで示します。
7B〜70Bまでモデル規模別のVRAM目安一覧
下の数値は「パラメータ数×量子化のビット幅」から導いた重みの概算です。実際にはこれに推論時のバッファとKVキャッシュなどの確保分が上乗せされるため、重みの目安に2〜3GB程度の余裕を見て判断するのが現実的。なお、Gemma 4 E4Bのように表記上の有効パラメータと実メモリがズレるモデルでは、同じ量子化でも目安より上振れします。
| パラメータ帯 | Q4量子化の重み目安 | Q8量子化の重み目安 | 16GB単体での可否 | 主な実行ソフト |
|---|---|---|---|---|
| 3B〜4B級 | 約2〜5GB | 約4〜9GB | 余裕で収まる | Ollama / LM Studio / llama.cpp |
| 7B〜8B級 | 約4〜5GB | 約7〜8GB | 快適に収まる | Ollama / LM Studio / llama.cpp |
| 12B〜14B級 | 約8〜9GB | 約14〜15GB | Q4は収まる/Q8はKVキャッシュ込みで超えやすい | Ollama / LM Studio / llama.cpp |
| 27B〜32B級(Dense) | 約16〜20GB | 約32GB以上 | Q4でもあふれ気味/オフロード前提 | llama.cpp / Ollama |
| MoE型(30B〜35B-A3B等) | 約16〜21GB | 条件次第 | Q4_K_M級は16GB単体ではあふれやすい(オフロード前提) | llama.cpp / Ollama |
| 70B級 | 約40GB | 約70GB | 16GB単体への全量GPUロードは不可 | オフロード/複数GPU |
表で押さえておきたいのが、MoE(Mixture of Experts)型の扱い。MoE型は各トークンで使う活性パラメータが小さいため、同じ総パラメータ数のDense型より計算量や生成速度の面で有利になりやすい。ただし、重みをGPUに全量載せる場合のVRAMは総パラメータ側に近づくため、「活性3Bだから3Bモデル並みのVRAMで済む」とは限らない。実際、Qwen3系の30B-A3BはQ4_K_Mで約18.6GBあり16GB単体には載らず、Gemma 4 26B A4BもQ4帯で14GB超と、活性パラメータ相当の小ささにはなりません。16GB環境では、低ビット量子化やMoE重みのCPU配置、GPU/CPUオフロードを組み合わせて成立するケースが多い。このあたりの境界は後半の実測で具体的に示します。
逆に、Dense型の32B級をFP16(量子化なし)で動かすのは16GBでは現実的ではありません。重みだけで60GB超を要するため、24GBや32GBのGPUでも単体では厳しい帯。16GBで32B級に手を出すなら、Q4まで落とすかオフロードを使うかの二択になります。
なぜ16GBで「収まる・あふれる」が決まるのか|VRAM消費の内訳と量子化
VRAM使用量は単一の数字ではなく、いくつかの要素の合計で決まります。内訳をざっくり分けると、モデルの重み、KVキャッシュなどの確保分、推論時の実行バッファの3つ。このうち最も大きいのが重みですが、文脈を長く取る使い方ではKVキャッシュなどの確保分が無視できない大きさに育ちます。
モデル重みの計算|パラメータ数×量子化ビット幅
モデルの重みが占めるVRAMは、おおまかに「パラメータ数×1パラメータあたりのビット幅÷8」で求まります。FP16なら1パラメータ16ビット(2バイト)なので、7Bモデルは約14GB。これがQ8(8ビット相当)になると半分の約7GB、Q4(4ビット相当)ならさらに半分の約3.5〜4GBまで下がる、というのが量子化の効きどころ。
つまり同じ7Bモデルでも、FP16なら16GBに対してかなり窮屈、Q4なら余裕で収まります。「7Bが動くか」ではなく「どの量子化の7Bが動くか」で考えるのが正しい見方。量子化はモデルの重みを圧縮する技術で、ビット幅を落とすほどVRAMは小さくなりますが、その分だけ精度がわずかに削られます。このトレードオフの詳細は次のセクションで扱います。
ここで効いてくるのが、パラメータ数と量子化の掛け算で重みが決まるという関係。14B級をQ4で動かすと約8〜9GB、32B級をQ4で動かすと約18〜20GB。16GBという容量に対して、14B級Q4は十分なマージンがありますが、32B級Q4は重みだけで容量を超えるか、超えなくても推論バッファ込みであふれます。この差が「収まる・あふれる」の分かれ目。
context長とKVキャッシュなどの確保分がVRAMを食う仕組み
見落とされがちなのが、重みとは別にVRAMを消費するKVキャッシュなどの確保分。LLMが文章を生成する際、過去のトークンの状態を保持しておくためのメモリで、文脈長(num_ctx)に比例して増えていきます。短い質問応答なら小さく済みますが、長文の要約や大きなコードベースを読ませる用途では、この確保分が数GB単位で膨らむことがある。
そのため、重みが16GBに収まっていても安心はできません。num_ctxを4096から32768へ伸ばせば、確保分が大きく増えて16GBからあふれる、という現象が起きます。「モデルは載ったのに長い文脈を渡したら落ちた」というケースの多くは、これが原因。
増えた分をすべて「KVキャッシュ分」と言い切れない点にも触れておきます。実際には注意機構のための一時バッファや、推論エンジンが確保する作業領域なども含まれるため、ここでは「KVキャッシュなどの確保分」とまとめています。いずれにせよ、文脈長を伸ばすほどVRAMの余裕が削られる、という方向性は変わりません。
量子化と文脈長、この2つを動かすと収まり方が変わるため、早見表の判定は「標準的な文脈長での目安」と捉えるのが正確。実際の境界がどこにあるのかは、数値で確かめるのが一番確実です。次は当サイトの検証環境での実測値で、16GBの収まり方を裏付けていきます。
モデルサイズ別の実際|7B・14B・32Bを16GBで動かす境界線
ここからは早見表の概算を、当サイトの検証環境での実測値で深掘りします。VRAM使用量はいずれもnvidia-smiのmemory.used由来のGPU全体の使用量(デスクトップ表示などのベースライン込み、単位はMiB)で、モデル単体の増分とは別物。計測日は2026-06-12、Ollamaで3回計測の平均、num_tokens=512、思考モードを持つモデル(gemma4等)はthink=falseで条件を揃え、num_ctxは各既定値です。GPUの世代やドライバ、モデルのタグ更新で数値は動くため、以下は2026-06-12時点のスナップショットとして読んでください。
まず、本ガイドが入門帯の第一候補に挙げるRTX 5060 Ti 16GB単体での実測早見表。重みはいずれもQ4_K_M級です。
| モデル(Q4_K_M) | パラメータ | 生成速度(tok/s) | VRAM(GPU全体) | 16GB単体の判定 |
|---|---|---|---|---|
| llama3.2:3b | 3B | 157.7 | 3353MiB(3.27GiB) | 余裕 |
| phi4-mini:3.8b | 3.8B | 133.6 | 4065MiB(3.97GiB) | 余裕 |
| gemma3:4b | 4B | 115.7 | 4011MiB(3.92GiB) | 余裕 |
| mistral:7b | 7B | 84.8 | 5513MiB(5.38GiB) | 快適 |
| llama3.1:8b | 8B | 79.1 | 5961MiB(5.82GiB) | 快適 |
| deepseek-r1:8b | 8B | 73.2 | 6177MiB(6.03GiB) | 快適 |
| qwen3.5:9b | 9B | 59.8 | 8073MiB(7.88GiB) | 快適 |
| gemma3:12b | 12B | 47.9 | 9209MiB(8.99GiB) | 収まる |
| qwen3:14b | 14B | 42.7 | 10117MiB(9.88GiB) | 収まる |
| phi4:14b | 14B | 44.0 | 10445MiB(10.20GiB) | 収まる |
| codestral:22b | 22B | 18.2 | 14025MiB(13.70GiB) | ギリギリ(dense実用の分水嶺) |
| gemma4:26b(MoE/A4B) | 26B | 31.0 | 14827MiB(14.48GiB) | 天井近く |
| qwen3.5:35b-a3b(MoE) | 35B-A3B | 15.4 | 14885MiB(14.54GiB) | 16GB超・一部CPUオフロード前提・低速 |
| qwen3.5:27b / gemma4:31b / qwen3:32b(Dense) | 27〜32B | — | — | VRAM不足で起動せず(SKIPPED) |
この帯から読み取れること。14B級まではVRAMに4〜6GiBの余裕を残して快適に動きます。22BのDense(codestral)は13.7GiBを使い18tok/s台まで落ち、ここがDense型で実用に耐える下限。27〜32BのDense型はそもそも起動しません(SKIPPED)。一方、総35BのMoE(A3B)型は、重みがQ4でも約18.6GB級で16GBには収まりきらず、一部をCPUへ逃がして動きます(GPU側で14.5GiB前後を使い、速度は15tok/s台)。同じMoEでも総26BのGemma 4 A4Bは14.5GiB前後で収まって31tok/s出ますが、これも活性パラメータの小ささに反してVRAMは総パラメータ側に効いています。活性が小さくても重みVRAMまで小さくなるわけではない——MoEを「小さいモデル」と早合点しないことが、16GB選びの勘所です。最新のqwen3-coder:30bやqwen3.6:35b-a3bも、16GB単体ではこのMoE帯と同様に窮屈で、快適に使うなら2枚目GPUでオフロードを解消した実測の構成が前提になります。
続いて、同じ16GBでも上位のRTX 5080単体での実測を見ます。コア数が多いぶん同じモデルでも速く、容量の使い切り方の違いも見えてきます。表に記載するVRAM使用量も同じくGPU全体の使用量(MiB)です。
7B〜14B(快適帯)の実測と推奨設定
7B〜8B級は16GBに対して余裕のある帯。当サイトの検証環境(RTX 5080単体)では、mistral 7B級が153.0 tokens/sec・GPU全体で7709MiB(7.53GiB)、llama3.1系の8B級が141.2 tokens/sec・8189MiB(8.00GiB)を記録しました。いずれもGPU全体使用量が8GiB前後で、16GBの半分程度。文脈長を多少伸ばしても余裕があり、対話用途なら最も扱いやすい帯です。
12B〜14B級になると、収まりつつも容量の使用率が上がります。同じ環境でgemma4の12B級が73.8 tokens/sec・11042MiB(10.78GiB)、14B級のphi4が78.2 tokens/sec・12171MiB(11.89GiB)、qwen3系の14B級が76.8 tokens/sec・11887MiB(11.61GiB)。GPU全体で11〜12GiBを使う計算で、16GBに対しては4GiB前後のマージンが残ります。この余裕が文脈長を伸ばす際の緩衝になる。14B級は速度と賢さのバランスが良く、16GBのGPUで常用するなら有力な帯です。
速度の傾向としては、パラメータ数が増えるほどtokens/secは下がります。8B級で約140 tokens/sec、14B級で約75 tokens/secと、規模が倍になると速度はおおむね半分前後。対話のレスポンスを重視するなら8B級、回答の質を取るなら14B級、という使い分けが現実的な落とし所になります。
20B台〜35B級の境界帯|16GBで収まる・あふれるの実際
32B級が16GBの本当の境界。当サイトの検証環境(RTX 5080単体)では、codestral 22B級が30.3 tokens/sec・15380MiB(15.02GiB)、Gemma 4 26B A4B(MoE型)が36.4 tokens/sec・15612MiB(15.25GiB)を記録しました。どちらもGPU全体使用量が15GiB台で、16GBのほぼ天井まで使い切っている状態。動作は確認できましたが、ここから文脈長を大きく伸ばす余地はほとんど残っていません。実際、qwen3の32B級(Dense)は同じ環境で計測がN/A(完走せず)となっており、Dense型の32B級は16GB単体では厳しい、という結果でした。
ここで効いてくるのがMoE型の存在。Qwen3.5-35B-A3B(MoE)は、RTX 5080単体ではVRAMを15755MiB(15.39GiB)まで使い切り、それでも収まりきらない分が約4割ほどCPUへあふれた状態で動作します。総パラメータは35Bでも活性パラメータが小さいMoEのため、CPUへ一部を逃がせばDense型の32B級が載らない16GBでも一応動く。ただし速度は18.9 tokens/secと、対話には少し待ちを感じる水準まで落ちます。「35Bが16GBで動く」のは事実ですが、CPUオフロード前提で快適とまでは言い切れないのが境界帯の正直なところ。
OOM(メモリ不足)を避けるための実務的な指針としては、20B台〜32B級に手を出すなら、Q4以下の量子化を選び、num_ctxを欲張らないこと。特に30B〜35B級のMoEや32B Denseでは、Q4_K_Mでも16GB単体に全量GPUロードできない場合があるため、低ビット量子化やCPU/GPUオフロードを前提に考えるのが安全です。当サイトの検証で15GiB台まで使い切っているモデルは、文脈長を伸ばした瞬間にあふれる可能性が高い帯です。ここで確認できたのは「標準的な文脈長で動作した」という範囲であり、長い文脈での上限までは未検証。それ以上を求めるなら、2枚目のGPUへ一部を逃がすオフロードという次の手が必要になります。
16GBを超えるモデルを動かす|CPUオフロードとllama.cppの設定
「あふれる」モデルを諦める必要はありません。VRAMに載りきらない層をRAM側へ逃がすのがGPU/CPUオフロード。llama.cppならGPUに載せる層数を指定し、残りをCPUに分担させます。
llama.cppではオフロード層数の指定(GPUに何層載せるか)でVRAMと速度を調整します。層数を増やすほどGPU処理が増えて速くなりますが、その分VRAMを食う。16GBに収まる限界まで層を載せ、あふれる分だけをCPUに回すのがセオリーです。ここで効いてくるのがRAM容量。CPU側に逃がした層はシステムメモリを使うため、32GB以上、できれば64GB級あると大型モデルでも余裕が出ます。Ollamaは収まらない分を自動でCPUに振り分ける挙動。手軽な反面、思った以上にCPU側へ逃げて速度が落ちる場合もあります。
速度の落ち方は実測で確認できました。Qwen3.5-35B-A3Bは、RTX 5080単体(超過分がCPUへあふれた状態)だと18.9 tokens/secでした。これを2枚目のRTX 5060 Ti(Oculink接続)へ分散してCPUあふれを解消すると124.9 tokens/secまで上昇。当サイトの検証環境(RTX 5080+5060 Ti・num_ctx=4096)での値です。1枚で無理に押し込むより、空いたGPUへ逃がすほうが速い、という結果。CPUオフロードはRAMへ逃がす分どうしても遅くなりますが、「動かない」が「動く」に変わる現実解です。
16GB VRAMのGPU選びと用途別の落とし所
結局どの16GB GPUを買うか。当サイトで使っている2機種に、コスパ候補のRTX 5070 Tiを加えて整理します。
| 項目 | RTX 5060 Ti 16GB | RTX 5070 Ti | RTX 5080 |
|---|---|---|---|
| VRAM | 16GB GDDR7 | 16GB GDDR7 | 16GB GDDR7 |
| CUDAコア | 4608 | 8960 | 10752 |
| TDP | 180W | 300W | 360W |
| 参考価格(2026年6月・国内実売の確認時点。在庫や為替で変動) | 90,000円〜 | 175,000円〜 | 200,000円台〜 |
| AI用途の目安 | 16GB帯の入門・LLM推論 | コスパ重視の主力 | 速度重視の上位 |
3機ともVRAMは16GBで、収まるモデルの大きさは同じ。違いはCUDAコア数とTDP、つまり「同じモデルがどれだけ速く回るか」です。kakaku.com 2026-06時点の参考価格でも、RTX 5060 Ti 16GBは9万円台から手が届きます。
まとめ
16GBで動くかどうかは、モデルの大きさ・量子化・文脈長の3つで決まります。7B〜14B級はQ4で余裕、32B級はQ4でギリギリ、Dense型の70B級は16GB GPU単体への全量ロードは現実的でなく、CPU/RAMオフロードや複数GPUが前提です。収まらないときは量子化を落とすか、CPU/2枚目GPUへのオフロードという次の一手。当サイトの検証では、35B-A3Bを1枚で18.9、2枚で124.9 tokens/secと差が出ました。まず使いたいモデルの規模を決め、それに16GBが足りるかで判断するのが近道です。
よくある質問
Q. VRAM 16GBで32Bモデルは動きますか?
Dense型の32B級はQ4でもギリギリです。当サイトの検証環境(RTX 5080単体)ではcodestral 22B級が15380MiB(15.02GiB)とほぼ天井。MoE型の35B-A3Bは15755MiB(15.39GiB)までVRAMを使い切り、超過分がCPUへあふれるため速度は18.9 tokens/secまで落ちます。
Q. 量子化はQ4とQ8のどちらを選ぶべきですか?
16GBに収めたいならQ4が現実的です。Q8は精度が高い分VRAM消費が約2倍になり、中型モデルでは収まらなくなります。一般的にQ4_K_Mは品質とサイズのバランスが良く、定番の実用ラインの一つです(用途によってはIQ系・UD系も選択肢)。
Q. オフロードすると遅くなりますか?
CPU側へ逃がすと遅くなりますが、2枚目のGPUへ逃がす場合は速くなることもあります。当サイトの検証では35B-A3Bを1枚から2枚構成にして約6.6倍に向上しました。
関連記事
- VRAM 16GBでGemma 4 12Bを動かす実測(速度・VRAM)
- 量子化(Q4_K_M・Q8_0・FP16)のVRAMと速度を実測比較
- 16GBでコンテキスト長をどこまで伸ばせるか|KVキャッシュ量子化
- VRAMに収まらない大型LLMをRAMオフロードで動かす
- 16GBであふれるMoEを2枚目GPUで解消した実測
- AIコーディング向けローカルLLMの必要スペック
- RTX 5080で動かす日本語ローカルLLM比較
- 27B・32Bが16GBで動かない理由(よくある疑問7選)
- VRAM 16GB GPUを用途別に選ぶなら
参考資料
当サイトはAmazonアソシエイト・プログラムの参加者です。Amazonのアソシエイトとして、当サイトは適格販売により収入を得ています。
