VRAMとは？AI用途で必要な容量の目安をわかりやすく解説

VRAMとは、GPU（グラフィックボード）に搭載された専用メモリで、AI処理に必須のスペックである。

「ローカルでAIを動かしたいのに、モデルを読み込んだ瞬間にエラーで落ちる」——その原因の大半は、VRAMの容量不足にある。VRAMはローカルAI実行における最も重要なスペック要素。この記事では、VRAMの基本的な仕組みからAI用途で必要な容量の目安まで、具体的な数値とともに解説していく。

この記事の要点

VRAMはGPU専用のメモリで、PCのメインメモリ（RAM）とは物理的に別物
ローカルでAIモデルを動かすにはVRAMにモデル全体を展開する必要があり、容量が足りなければ動作しない
ローカルLLMなら12GB以上、画像生成なら8GB以上が実用的な目安。API利用（ChatGPT・Claude等）ならVRAMは不要

VRAMとは？通常のメモリ（RAM）との違い
AI用途でVRAMが重要な理由
1. VRAMが足りないとどうなるか
2. KVキャッシュとコンテキスト長の関係
用途別・VRAMの必要容量の目安
VRAM以外にも注意すべきスペック
VRAM容量別・おすすめGPUの選び方
よくある質問
まとめ
参考資料

VRAMとは？通常のメモリ（RAM）との違い

VRAMとは、GPU（グラフィックボード）に搭載された専用メモリで、グラフィック処理やAI計算に使われるデータを一時的に格納する領域のこと。正式名称はVideo Random Access Memoryという。

PCに搭載されているメインメモリ（RAM）は、CPUが使う作業用メモリ。一方、VRAMはGPUだけがアクセスする専用領域で、物理的にもGPUのボード上に実装されている。両者はまったく別のハードウェアであり、「RAMが32GBあるからVRAMは十分」とはならない。

AI処理においてVRAMが決定的に重要な理由は、データの載せ方にある。ローカルでAIモデルを動かす場合、モデルの重み（パラメータ）をVRAM上に丸ごと展開する必要がある。たとえば70億パラメータ（7B）のモデルなら、量子化の方式にもよるが約4〜6GBのVRAMを占有する。容量が足りなければ、そもそもモデルが読み込めない。

「メモリ16GB搭載」と書かれたPCのスペック表示は、通常メインメモリ（RAM）の容量を指す。VRAMの容量はGPUの製品ページで別途確認が必要。

ここが初心者にとって最大の落とし穴になる。PC購入時にRAMだけを見てVRAMを確認しなかった結果、「スペックは十分なはずなのにAIが動かない」という事態に陥るケースは珍しくない。

AI用途でVRAMが重要な理由

AIモデルの推論時には、パラメータの重み・KVキャッシュ（過去の会話履歴を保持する領域）・アクティベーション（計算途中のデータ）がすべてVRAM上に展開される。この3要素の合計がVRAM容量を超えた瞬間、モデルは正常に動作しなくなる仕組み。

ただし、すべてのAI利用にVRAMが必要なわけではない。ChatGPT、Claude、GitHub CopilotなどAPI経由で動作するAIツールはクラウド上のGPUを使って処理を行う。この場合、手元のPCにはGPUすら不要で、CPU・RAM・ネットワーク速度が快適さを左右する。VRAMが重要になるのはOllama、llama.cpp、Stable Diffusion、ComfyUIなどローカルでモデルを実行するケースに限られる。

VRAMが足りないとどうなるか

VRAM不足で起きる現象は主に2つ。1つ目がOOM（Out of Memory）エラーで、モデルの読み込み自体が失敗してプロセスが強制終了される。2つ目が、モデルの一部をシステムRAM側に退避させる「オフロード」処理。こちらは動作はするものの、速度が劇的に低下する。

当サイトの検証環境（RTX 5080 16GB + RTX 5060 Ti 16GB / i7-14700F / RAM 96GB）でqwen3:8bを実行したところ、131.5 tokens/secを記録。同じモデルでもVRAM容量を超えてRAMへのオフロードが発生すると、速度が10分の1以下に落ちる事例も観測される。VRAMに載るか載らないかで、体感速度はまったく別物になる。当サイト実機検証（2026-05、Ollama 0.23.3）

KVキャッシュとコンテキスト長の関係

VRAM消費は「モデル本体の重み」だけでは決まらない。Transformer系のLLMは、過去のトークンに対する計算結果（Key/Value）を再利用するためにKVキャッシュと呼ばれる領域を使う。このキャッシュ量はおおむね「2 × レイヤー数 × 隠れ層次元 × コンテキスト長 × データ型バイト数」で計算され、コンテキスト長と線形に増えていく。

たとえばLlama 3.1 8B（32レイヤー・隠れ層4096・GQA採用）でコンテキスト長を8192トークンに設定した場合、KVキャッシュだけでおよそ1GB前後を消費する。これを32768トークンまで拡張すると、4GBほど追加で必要になる計算だ。モデル構造や対応コンテキスト長はMeta公式のLlama 3.1リリースノートに整理されている。

古いMHA（マルチヘッドアテンション）方式のモデルに対し、近年主流のGQA（グループ化クエリアテンション）方式はKVキャッシュを数分の1まで圧縮する。長文プロンプトを多用するなら、GQA対応モデルを選ぶだけでもVRAM消費は大きく変わってくる。Llama 3系・Qwen2.5系などはいずれもGQAを採用しており、同じパラメータ数でも旧世代モデルより長文を扱いやすい。

用途別・VRAMの必要容量の目安

AI用途で必要なVRAM容量は、「何を動かすか」によって大きく異なる。以下の表で用途別の目安を整理した。

用途	最低VRAM	推奨VRAM	代表的なツール
ローカルLLM（7B以下）	6GB	8GB以上	Ollama、llama.cpp、LM Studio
ローカルLLM（13B〜14B）	10GB	12GB以上	Ollama、llama.cpp、LM Studio
ローカルLLM（26B〜32B）	16GB	24GB以上	Ollama、llama.cpp
画像生成（SD 1.5）	4GB	8GB以上	Stable Diffusion WebUI、ComfyUI
画像生成（SDXL / Flux）	8GB	12GB以上	ComfyUI、Forge
動画生成	12GB	16GB以上	ComfyUI + Wan2.1等
ファインチューニング	16GB	24GB以上	Unsloth、Axolotl
API利用のみ	不要	不要	ChatGPT、Claude、Copilot

ChatGPTやClaudeをブラウザから利用するだけなら、VRAMは一切気にしなくてよい。GPU非搭載のノートPCでも問題なく動作する。「自分の用途はAPI利用だけなのか、ローカル実行もしたいのか」をまず整理するのが第一歩。

ローカルLLMで必要なVRAMの目安

ローカルLLMの必要VRAM量は、モデルのパラメータ数と量子化レベルの2つで決まる。量子化とは、モデルの重みデータを低ビットに圧縮してVRAM消費を減らす技術のこと。基本的な仕組みはHugging Face公式の量子化ガイドで体系的に解説されている。

モデルサイズ	Q4量子化	Q8量子化	FP16（非量子化）
4B（Phi-3 Mini等）	約3GB	約5GB	約8GB
7〜8B（Llama 3.1 8Bなど）	約5GB	約9GB	約16GB
14B（Qwen2.5-14Bなど）	約9GB	約15GB	約28GB
27Bクラスのモデル	約16GB	約28GB	約52GB
70B（Llama 3.1 70Bなど）	約40GB	約70GB	約140GB

この表が示す通り、量子化によって必要VRAM量は半分以下になる場合もある。Q4量子化であれば、VRAM 16GBのGPUでも27Bクラスのモデルをギリギリ動かせる計算だ。海外のローカルLLMコミュニティでは、14〜27Bクラスのモデルをq4量子化してVRAM 16GB環境で実用的に動かしているユーザーの報告がある。

さらに極端な例として、数百億パラメータ規模のモデルをQ2（2ビット）量子化し、VRAM 48GB環境で動作させたという報告もある。Q2は通常、品質劣化が大きいとされるが、超大型モデルでは劣化が相対的に小さくなるケースがあるとの指摘もある。ただし、これはあくまでハイエンド環境での話であり、一般的にはQ4以上の量子化を選ぶのが無難。

量子化レベルに迷ったら、まずQ4（4ビット量子化）を試すのがおすすめ。品質とVRAM消費のバランスが最も良く、多くのユーザーが標準的に使っている方式。

量子化方式の違い（GGUF / GPTQ / AWQ / EXL2）

同じ「Q4量子化」と言っても、内部で使われている量子化アルゴリズムは複数ある。代表的な方式と特性を整理する。

GGUF: llama.cppが採用する形式。CPU/GPU混在実行に強く、Q4_K_M・Q5_K_M・Q6_K・Q8_0など細かいビット選択が可能。フォーマット仕様はggml公式ドキュメントで公開されている。Ollamaやllama.cpp系ツールで標準的に使われる形式。
GPTQ: Frantar et al., 2022の論文で提案された方式。レイヤーごとに重要度を評価しながら量子化することで精度劣化を抑える。GPU実行に特化しており、AutoGPTQやExLlamaで利用される。
AWQ: Lin et al., 2023のAWQ論文で提案されたActivation-aware Weight Quantization。活性化の大きさに応じて重要な重みを保護する手法で、4bit量子化でも比較的高い精度を維持しやすい。
EXL2: ExLlamaV2が採用する可変ビット量子化。レイヤーごとに2〜8ビットを混在させ、平均ビット数を細かく調整できる。同じVRAM枠でも品質を最大化したい場合に選ばれる。

初心者向けにはGGUF（特にQ4_K_MやQ5_K_M）が扱いやすい。Ollamaで ollama pull qwen2.5:14b などと打つだけで自動的にGGUF形式のモデルがダウンロードされる仕組みになっている。利用可能なモデル一覧はOllama公式ライブラリで確認できる。

画像・動画生成で必要なVRAMの目安

画像生成AIのVRAM消費は、モデルの種類と生成解像度で変わる。SD 1.5（Stable Diffusion 1.5）なら512×512の標準解像度でVRAM 4GB程度から動作可能。一方、SDXLは1024×1024が標準で、最低でも8GB、快適に使うなら12GB以上が必要になる。Stable Diffusion 3.5の詳細仕様はStability AI公式のリリースアナウンスで公開されている。

Black Forest LabsがリリースしたFluxのような最新モデルはさらにVRAMを消費する傾向にある。動画生成（Wan2.1など）に至っては、フレーム数や解像度の設定によっては16GB以上を要求される場合もある。Stable Diffusionの導入を検討している場合、最低でもVRAM 8GB、できれば12GB以上のGPUを用意しておくと安心。

ファインチューニングとQLoRA

モデルを自前データで再学習（ファインチューニング）する場合、必要VRAM量は推論時の数倍に跳ね上がる。全パラメータを更新する学習では、モデル重みに加えて勾配・オプティマイザ状態・アクティベーションのバックワード保持が必要となるためだ。7Bモデルを全層更新する学習であっても、FP16精度で30〜60GB前後のVRAMを要求される。

この壁を一気に下げたのがQLoRA（Dettmers et al., 2023）。元のモデルを4bit量子化したまま凍結し、小さな低ランク行列（LoRA論文 Hu et al., 2021）だけを学習させる仕組みで、7Bモデルのファインチューニングが約6〜8GBのVRAMで動かせるようになった。13B〜14BクラスでもVRAM 12〜16GBで実行可能になり、コンシューマー向けGPUで学習が現実的になっている。

実装面ではUnsloth公式ドキュメントがメモリ使用量と学習速度の両面で参考になる。Unslothは独自カーネルでQLoRA学習のメモリ消費をさらに削減し、同じVRAMで2〜5倍長いコンテキストを扱えるとされる。ただし学習速度は全パラメータ更新より遅く、複雑なタスクでは精度が落ちるケースもある点には注意が必要。

VRAM以外にも注意すべきスペック

VRAMはローカルAI実行の最重要スペックだが、それだけ見ていれば万全というわけではない。見落とされがちなボトルネックが3つある。

1つ目はシステムRAM（メインメモリ）。 llama.cppなどの推論ライブラリでは、コンテキスト長（一度に処理するテキスト量）を大きく設定すると、VRAMとは別にシステムRAMも大量に消費される。llama.cpp公式リポジトリのIssue報告でも、大型モデルで長文プロンプトを処理した際にシステムRAMが枯渇し、プロセスが強制終了されたという報告が複数上がっている。ローカルLLMを快適に動かすなら、システムRAMは最低32GB、できれば64GB以上を確保したい。

2つ目はメモリ帯域幅。 VRAMの「容量」だけでなく「速度」もトークン生成速度に直結する。同じ16GBでも、GDDR6とGDDR6Xでは帯域幅が異なり、生成速度に差が出る。NVIDIA公式のRTX 5080スペックによれば、RTX 5080はGDDR7メモリで960GB/sの帯域幅を備える。当サイトの検証ではRTX 5080でqwen3:8bが131.5 tokens/secを記録したのに対し、RTX 4070 Super（GDDR6X・帯域幅504GB/s）では同モデルで81.1 tokens/secだった。帯域幅が約2倍のGPUで、速度も約1.5倍の差が出ている。

LLM推論はメモリ帯域がボトルネックになる処理として知られる。コア性能を上げても、VRAMから重みを読み出す速度が頭打ちになるためだ。「同じVRAM容量なら帯域幅が速い方が良い」というのは、ローカルLLM選定の基本原則になる。当サイト実機検証（RTX 5080 16GB / RTX 4070 Super 12GB、Ollama 0.23.3）

3つ目はSSD容量。 ローカルAIモデルのファイルサイズは、7Bモデルで約4GB、70Bモデルで約40GBにもなる。複数モデルを使い分けるなら、SSDの空き容量は最低でも100GB以上確保しておくべき。

VRAM容量別・おすすめGPUの選び方

最後に、VRAM容量帯ごとの代表的なGPUと対応可能なAI用途を整理する。2026年5月時点の情報をもとにまとめた。

VRAM容量	代表的なGPU	対応できるAI用途	参考価格帯
8GB	RTX 4060	SD 1.5、7B以下のLLM（Q4）	4〜5万円
12GB	RTX 4060 Ti、RTX 4070 Super、RTX 3060 12GB	SDXL、Flux、14BまでのLLM（Q4）	5〜9万円
16GB	RTX 5080、RTX 4060 Ti 16GB、RX 7800 XT	動画生成、26BまでのLLM（Q4）	7〜15万円
24GB	RTX 4090、RTX 3090	70B LLM（Q4・部分オフロード）、ファインチューニング	20〜30万円

迷ったらVRAM 12GB以上のGPUを選べば、画像生成からローカルLLMまで主要なAI用途の大半をカバーできる。これがもっともわかりやすい結論。

ただし、AIモデルは年々大型化している。2026年に入って26B〜32Bクラスのローカル LLMが急増してきた。予算に余裕があるなら、16GB以上を選んでおくと数年先まで対応力が持続する。逆にAPI利用がメインでローカル実行の予定がなければ、VRAM容量を気にする必要はまったくない。

VRAMの正式名称: Video Random Access Memory（GPU専用メモリ）
ローカルLLM (7B Q4): 最低 6GB / 推奨 8GB+
ローカルLLM (14B Q4): 最低 10GB / 推奨 12GB+
画像生成 SDXL / Flux: 最低 8GB / 推奨 12GB+
動画生成 (Wan2.1等): 最低 12GB / 推奨 16GB+
QLoRA 7B 学習: 6〜8GB
API利用 (ChatGPT等): 不要

よくある質問

Q. VRAMとRAM（メインメモリ）は何が違いますか？

VRAMはGPU専用のメモリ、RAMはCPU用のメモリで、物理的に別のハードウェアです。RAMがどれだけ多くても、VRAMの代わりにはなりません。

Q. VRAMが足りない場合、RAMで代用できますか？

完全な代用はできません。llama.cppなどの推論ライブラリはモデルの一部をシステムRAMに退避（オフロード）する機能を持ちますが、処理速度がVRAM実行の10分の1以下に落ちることがあります。動作はするものの、実用的な速度を求めるならVRAMへの収容が必須です。

Q. ローカルでLLMを動かすのに必要な最低VRAMは何GBですか？

7B以下のモデルをQ4量子化で動かす場合、最低6GB・推奨8GB以上が目安です。14Bクラスなら12GB以上、32Bクラスには24GB以上が推奨されます。量子化を活用することで必要VRAM量を大幅に削減できるため、まずQ4量子化で試すのが定番の方法です。

Q. ChatGPTやClaudeを使うだけならVRAMは必要ですか？

不要です。ChatGPTやClaudeはAPI経由でクラウド上のGPUを使って処理するため、手元のPCにGPUがなくても問題なく動作します。VRAMが重要になるのはOllamaやStable DiffusionなどローカルでAIモデルを実行する場合に限られます。

Q. VRAM 8GBでローカルLLMは動かせますか？

7B以下のモデルをQ4量子化すれば動作します。ただし14B以上のモデルは厳しく、画像生成もSDXL以上は快適とは言えません。幅広いAI用途に対応するなら12GB以上を推奨します。

Q. VRAMは増設できますか？

できません。VRAMはGPUのボード上にはんだ付けされており、後から追加や交換は不可能です。VRAM容量を増やすにはGPU自体を買い替える必要があります。

Q. VRAM 16GBと24GBで体感差はありますか？

用途によって大きく変わります。SDXLや14Bまでのローカル LLMが主用途なら16GBで足ります。一方、26B以上のLLMをQ4で動かしたい、QLoRAで7B〜13Bのファインチューニングをしたい、動画生成で高解像度を扱いたい、といった用途では24GBの恩恵が明確に出ます。

Q. 2枚のGPUでVRAMを合算できますか？

用途次第で可能です。llama.cppやvLLMなどの推論ライブラリはマルチGPU対応で、モデルをレイヤー単位で分割して複数GPUに配置できます。ただしGPU間通信がボトルネックになりやすく、速度面では単一の大容量GPUに劣るのが一般的です。SDXLや動画生成のような単一プロセスに最適化された処理では、合算が難しいケースもあります。

Q. ノートPCのGPUでもAIは動きますか？

動きますが、ノートPC向けGPUは同型番のデスクトップ版より性能・VRAM容量ともに低い傾向があります。たとえばノート向け「RTX 4070 Laptop」はVRAM 8GBで、デスクトップ版RTX 4070（12GB）とは別物。AI用途で本格的に使うならVRAM容量を必ず仕様表で確認してください。

まとめ

VRAMはGPU専用のメモリであり、ローカルでAIを動かす際の最重要スペック。容量が足りなければモデルが読み込めず、不足したまま無理に動かしても実用的な速度は得られない。

用途別の目安を改めて整理すると、ローカルLLM（7〜14B）なら12GB以上、画像生成（SDXL / Flux）なら12GB以上、API利用のみならVRAM不要。まずは自分の用途がローカル実行なのかAPI利用なのかを明確にし、ローカル実行が必要なら「動かしたいモデルのパラメータ数」と「量子化レベル」から逆算してVRAM容量を決めるのが確実な選び方になる。

参考資料

NVIDIA公式: GeForce RTX 5080 製品仕様
Meta公式: Llama 3.1 リリースノート
Hugging Face公式: Quantization 概要ドキュメント
ggml公式: GGUF フォーマット仕様
GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers (Frantar et al., 2022, arXiv:2210.17323)
AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration (Lin et al., 2023, arXiv:2306.00978)
QLoRA: Efficient Finetuning of Quantized LLMs (Dettmers et al., 2023, arXiv:2305.14314)
LoRA: Low-Rank Adaptation of Large Language Models (Hu et al., 2021, arXiv:2106.09685)
Ollama公式: モデルライブラリ
Unsloth公式ドキュメント
llama.cpp公式リポジトリ
Stability AI公式: Stable Diffusion 3.5 リリースアナウンス