VRAMとは？AI用途で必要な容量の目安をわかりやすく解説

VRAMとは、GPU（グラフィックボード）に搭載された専用メモリで、AI処理に必須のスペックである。

「ローカルでAIを動かしたいのに、モデルを読み込んだ瞬間にエラーで落ちる」——その原因の大半は、VRAMの容量不足にある。VRAMはローカルAI実行における最も重要なスペック要素。この記事では、VRAMの基本的な仕組みからAI用途で必要な容量の目安まで、具体的な数値とともに解説していく。

この記事の要点

VRAMはGPU専用のメモリで、PCのメインメモリ（RAM）とは物理的に別物
ローカルでAIモデルを動かすにはVRAMにモデル全体を展開する必要があり、容量が足りなければ動作しない
ローカルLLMなら12GB以上、画像生成なら8GB以上が実用的な目安。API利用（ChatGPT・Claude等）ならVRAMは不要

VRAMとは？通常のメモリ（RAM）との違い
AI用途でVRAMが重要な理由
1. VRAMが足りないとどうなるか
2. KVキャッシュとコンテキスト長の関係
用途別・VRAMの必要容量の目安
VRAM以外にも注意すべきスペック
VRAM容量別・おすすめGPUの選び方
まとめ
参考資料

VRAMとは？通常のメモリ（RAM）との違い

VRAMとは、GPU（グラフィックボード）に搭載された専用メモリで、グラフィック処理やAI計算に使われるデータを一時的に格納する領域のこと。正式名称はVideo Random Access Memoryという。

PCに搭載されているメインメモリ（RAM）は、CPUが使う作業用メモリ。一方、VRAMはGPUだけがアクセスする専用領域で、物理的にもGPUのボード上に実装されている。両者はまったく別のハードウェアであり、「RAMが32GBあるからVRAMは十分」とはならない。

AI処理においてVRAMが決定的に重要な理由は、データの載せ方にある。ローカルでAIモデルを動かす場合、モデルの重み（パラメータ）をVRAM上に丸ごと展開する必要がある。たとえば70億パラメータ（7B）のモデルなら、量子化の方式にもよるが約4〜6GBのVRAMを占有する。容量が足りなければ、そもそもモデルが読み込めない。

「メモリ16GB搭載」と書かれたPCのスペック表示は、通常メインメモリ（RAM）の容量を指す。VRAMの容量はGPUの製品ページで別途確認が必要。

ここが初心者にとって最大の落とし穴になる。PC購入時にRAMだけを見てVRAMを確認しなかった結果、「スペックは十分なはずなのにAIが動かない」という事態に陥るケースは珍しくない。

AI用途でVRAMが重要な理由

AIモデルの推論時には、パラメータの重み・KVキャッシュ（過去の会話履歴を保持する領域）・アクティベーション（計算途中のデータ）がすべてVRAM上に展開される。この3要素の合計がVRAM容量を超えた瞬間、モデルは正常に動作しなくなる仕組み。

ただし、すべてのAI利用にVRAMが必要なわけではない。ChatGPT、Claude、GitHub CopilotなどAPI経由で動作するAIツールはクラウド上のGPUを使って処理を行う。この場合、手元のPCにはGPUすら不要で、CPU・RAM・ネットワーク速度が快適さを左右する。VRAMが重要になるのはOllama、llama.cpp、Stable Diffusion、ComfyUIなどローカルでモデルを実行するケースに限られる。

VRAMが足りないとどうなるか

VRAM不足で起きる現象は主に2つ。1つ目がOOM（Out of Memory）エラーで、モデルの読み込み自体が失敗してプロセスが強制終了される。2つ目が、モデルの一部をシステムRAM側に退避させる「オフロード」処理。こちらは動作はするものの、速度が劇的に低下する。

当サイトの検証環境（RTX 5080 16GB + RTX 5060 Ti 16GB / i7-14700F / RAM 96GB）でqwen3:8bを実行したところ、131.5 tokens/secを記録。同じモデルでもVRAM容量を超えてRAMへのオフロードが発生すると、速度が10分の1以下に落ちる事例も観測される。VRAMに載るか載らないかで、体感速度はまったく別物になる。当サイト実機検証（2026-05、Ollama 0.23.3）

KVキャッシュとコンテキスト長の関係

VRAM消費は「モデル本体の重み」だけでは決まらない。Transformer系のLLMは、過去のトークンに対する計算結果（Key/Value）を再利用するためにKVキャッシュと呼ばれる領域を使う。このキャッシュ量はおおむね「2 × レイヤー数 × 隠れ層次元 × コンテキスト長 × データ型バイト数」で計算され、コンテキスト長と線形に増えていく。

たとえばLlama 3.1 8B（32レイヤー・隠れ層4096・GQA採用）でコンテキスト長を8192トークンに設定した場合、KVキャッシュだけでおよそ1GB前後を消費する。これを32768トークンまで拡張すると、4GBほど追加で必要になる計算だ。モデル構造や対応コンテキスト長はMeta公式のLlama 3.1リリースノートに整理されている。

古いMHA（マルチヘッドアテンション）方式のモデルに対し、近年主流のGQA（グループ化クエリアテンション）方式はKVキャッシュを数分の1まで圧縮する。長文プロンプトを多用するなら、GQA対応モデルを選ぶだけでもVRAM消費は大きく変わってくる。Llama 3系・Qwen2.5系などはいずれもGQAを採用しており、同じパラメータ数でも旧世代モデルより長文を扱いやすい。

用途別・VRAMの必要容量の目安

AI用途で必要なVRAM容量は、「何を動かすか」によって大きく異なる。以下の表で用途別の目安を整理した。

用途	最低VRAM	推奨VRAM	代表的なツール
ローカルLLM（7B以下）	6GB	8GB以上	Ollama、llama.cpp、LM Studio
ローカルLLM（13B〜14B）	10GB	12GB以上	Ollama、llama.cpp、LM Studio
ローカルLLM（26B〜32B）	16GB	24GB以上	Ollama、llama.cpp
画像生成（SD 1.5）	4GB	8GB以上	Stable Diffusion WebUI、ComfyUI
画像生成（SDXL / Flux）	8GB	12GB以上	ComfyUI、Forge
動画生成	12GB	16GB以上	ComfyUI + Wan2.1等
ファインチューニング	16GB	24GB以上	Unsloth、Axolotl
API利用のみ	不要	不要	ChatGPT、Claude、Copilot

ChatGPTやClaudeをブラウザから利用するだけなら、VRAMは一切気にしなくてよい。GPU非搭載のノートPCでも問題なく動作する。「自分の用途はAPI利用だけなのか、ローカル実行もしたいのか」をまず整理するのが第一歩。

ローカルLLMで必要なVRAMの目安

ローカルLLMの必要VRAM量は、モデルのパラメータ数と量子化レベルの2つで決まる。量子化とは、モデルの重みデータを低ビットに圧縮してVRAM消費を減らす技術のこと。基本的な仕組みはHugging Face公式の量子化ガイドで体系的に解説されている。

モデルサイズ	Q4量子化	Q8量子化	FP16（非量子化）
4B（Phi-3 Mini等）	約3GB	約5GB	約8GB
7〜8B（Llama 3.1 8Bなど）	約5GB	約9GB	約16GB
14B（Qwen2.5-14Bなど）	約9GB	約15GB	約28GB
27Bクラスのモデル	約16GB	約28GB	約52GB
70B（Llama 3.1 70Bなど）	約40GB	約70GB	約140GB

この表が示す通り、量子化によって必要VRAM量は半分以下になる場合もある。Q4量子化であれば、VRAM 16GBのGPUでも27Bクラスのモデルをギリギリ動かせる計算だ。海外のローカルLLMコミュニティでは、14〜27Bクラスのモデルをq4量子化してVRAM 16GB環境で実用的に動かしているユーザーの報告がある。

さらに極端な例として、数百億パラメータ規模のモデルをQ2（2ビット）量子化し、VRAM 48GB環境で動作させたという報告もある。Q2は通常、品質劣化が大きいとされるが、超大型モデルでは劣化が相対的に小さくなるケースがあるとの指摘もある。ただし、これはあくまでハイエンド環境での話であり、一般的にはQ4以上の量子化を選ぶのが無難。

量子化レベルに迷ったら、まずQ4（4ビット量子化）を試すのがおすすめ。品質とVRAM消費のバランスが最も良く、多くのユーザーが標準的に使っている方式。

量子化方式の違い（GGUF / GPTQ / AWQ / EXL2）

同じ「Q4量子化」と言っても、内部で使われている量子化アルゴリズムは複数ある。代表的な方式と特性を整理する。

GGUF: llama.cppが採用する形式。CPU/GPU混在実行に強く、Q4_K_M・Q5_K_M・Q6_K・Q8_0など細かいビット選択が可能。フォーマット仕様はggml公式ドキュメントで公開されている。Ollamaやllama.cpp系ツールで標準的に使われる形式。
GPTQ: Frantar et al., 2022の論文で提案された方式。レイヤーごとに重要度を評価しながら量子化することで精度劣化を抑える。GPU実行に特化しており、AutoGPTQやExLlamaで利用される。
AWQ: Lin et al., 2023のAWQ論文で提案されたActivation-aware Weight Quantization。活性化の大きさに応じて重要な重みを保護する手法で、4bit量子化でも比較的高い精度を維持しやすい。
EXL2: ExLlamaV2が採用する可変ビット量子化。レイヤーごとに2〜8ビットを混在させ、平均ビット数を細かく調整できる。同じVRAM枠でも品質を最大化したい場合に選ばれる。

初心者向けにはGGUF（特にQ4_K_MやQ5_K_M）が扱いやすい。Ollamaで ollama pull qwen2.5:14b などと打つだけで自動的にGGUF形式のモデルがダウンロードされる仕組みになっている。利用可能なモデル一覧はOllama公式ライブラリで確認できる。

画像・動画生成で必要なVRAMの目安

画像生成AIのVRAM消費は、モデルの種類と生成解像度で変わる。SD 1.5（Stable Diffusion 1.5）なら512×512の標準解像度でVRAM 4GB程度から動作可能。一方、SDXLは1024×1024が標準で、最低でも8GB、快適に使うなら12GB以上が必要になる。Stable Diffusion 3.5の詳細仕様はStability AI公式のリリースアナウンスで公開されている。

Black Forest LabsがリリースしたFluxのような最新モデルはさらにVRAMを消費する傾向にある。動画生成（Wan2.1など）に至っては、フレーム数や解像度の設定によっては16GB以上を要求される場合もある。Stable Diffusionの導入を検討している場合、最低でもVRAM 8GB、できれば12GB以上のGPUを用意しておくと安心。

ファインチューニングとQLoRA

モデルを自前データで再学習（ファインチューニング）する場合、必要VRAM量は推論時の数倍に跳ね上がる。全パラメータを更新する学習では、モデル重みに加えて勾配・オプティマイザ状態・アクティベーションのバックワード保持が必要となるためだ。7Bモデルを全層更新する学習であっても、FP16精度で30〜60GB前後のVRAMを要求される。

この壁を一気に下げたのがQLoRA（Dettmers et al., 2023）。元のモデルを4bit量子化したまま凍結し、小さな低ランク行列（LoRA論文 Hu et al., 2021）だけを学習させる仕組みで、7Bモデルのファインチューニングが約6〜8GBのVRAMで動かせるようになった。13B〜14BクラスでもVRAM 12〜16GBで実行可能になり、コンシューマー向けGPUで学習が現実的になっている。

実装面ではUnsloth公式ドキュメントがメモリ使用量と学習速度の両面で参考になる。Unslothは独自カーネルでQLoRA学習のメモリ消費をさらに削減し、同じVRAMで2〜5倍長いコンテキストを扱えるとされる。ただし学習速度は全パラメータ更新より遅く、複雑なタスクでは精度が落ちるケースもある点には注意が必要。

VRAM以外にも注意すべきスペック

VRAMはローカルAI実行の最重要スペックだが、それだけ見ていれば万全というわけではない。見落とされがちなボトルネックが3つある。

1つ目はシステムRAM（メインメモリ）。 llama.cppなどの推論ライブラリでは、コンテキスト長（一度に処理するテキスト量）を大きく設定すると、VRAMとは別にシステムRAMも大量に消費される。llama.cpp公式リポジトリのIssue報告でも、大型モデルで長文プロンプトを処理した際にシステムRAMが枯渇し、プロセスが強制終了されたという報告が複数上がっている。ローカルLLMを快適に動かすなら、システムRAMは最低32GB、できれば64GB以上を確保したい。

2つ目はメモリ帯域幅。 VRAMの「容量」だけでなく「速度」もトークン生成速度に直結する。同じ16GBでも、GDDR6とGDDR6Xでは帯域幅が異なり、生成速度に差が出る。NVIDIA公式のRTX 5080スペックによれば、RTX 5080はGDDR7メモリで960GB/sの帯域幅を備える。当サイトの検証ではRTX 5080でqwen3:8bが131.5 tokens/secを記録したのに対し、RTX 4070 Super（GDDR6X・帯域幅504GB/s）では同モデルで81.1 tokens/secだった。帯域幅が約2倍のGPUで、速度も約1.5倍の差が出ている。

LLM推論はメモリ帯域がボトルネックになる処理として知られる。コア性能を上げても、VRAMから重みを読み出す速度が頭打ちになるためだ。「同じVRAM容量なら帯域幅が速い方が良い」というのは、ローカルLLM選定の基本原則になる。当サイト実機検証（RTX 5080 16GB / RTX 4070 Super 12GB、Ollama 0.23.3）

3つ目はSSD容量。 ローカルAIモデルのファイルサイズは、7Bモデルで約4GB、70Bモデルで約40GBにもなる。複数モデルを使い分けるなら、SSDの空き容量は最低でも100GB以上確保しておくべき。

VRAM容量別・おすすめGPUの選び方

最後に、VRAM容量帯ごとの代表的なGPUと対応可能なAI用途を整理する。2026年5月時点の情報をもとにまとめた（価格は変動が大きいため、購入前に最新の実売価格を確認してほしい）。

VRAM容量	代表的なGPU	対応できるAI用途	参考価格帯
8GB	RTX 4060	SD 1.5、7B以下のLLM（Q4）	4〜5万円
12GB	RTX 3060 12GB、RTX 4070 Super、RTX 4070	SDXL、Flux、14BまでのLLM（Q4）	RTX 3060 12GB: 約4万円〜／RTX 4070 Super: 約11〜13万円（2026年時点・変動大）
16GB	RTX 4060 Ti 16GB、RX 7800 XT（RTX 5080も16GBだが価格帯が上）	動画生成、26BまでのLLM（Q4）	7〜10万円前後（RTX 5080は約18〜22万円）
24GB	RTX 4090（新品）、RTX 3090（中古中心）	70B LLM（Q4・部分オフロード）、ファインチューニング	RTX 4090は新品約40万円超・中古38万円前後で高止まり（2026年時点・変動大、個人間取引はより安い場合あり）

迷ったらVRAM 12GB以上のGPUを選べば、画像生成からローカルLLMまで主要なAI用途の大半をカバーできる。これがもっともわかりやすい結論。

ただし、AIモデルは年々大型化している。2026年に入って26B〜32Bクラスのローカル LLMが急増してきた。予算に余裕があるなら、16GB以上を選んでおくと数年先まで対応力が持続する。逆にAPI利用がメインでローカル実行の予定がなければ、VRAM容量を気にする必要はまったくない。

VRAMの正式名称	Video Random Access Memory（GPU専用メモリ）
ローカルLLM (7B Q4)	最低 6GB / 推奨 8GB+
ローカルLLM (14B Q4)	最低 10GB / 推奨 12GB+
画像生成 SDXL / Flux	最低 8GB / 推奨 12GB+
動画生成 (Wan2.1等)	最低 12GB / 推奨 16GB+
QLoRA 7B 学習	6〜8GB
API利用 (ChatGPT等)	不要

まとめ

VRAMはGPU専用のメモリであり、ローカルでAIを動かす際の最重要スペック。容量が足りなければモデルが読み込めず、不足したまま無理に動かしても実用的な速度は得られない。

用途別の目安を改めて整理すると、ローカルLLM（7〜14B）なら12GB以上、画像生成（SDXL / Flux）なら12GB以上、API利用のみならVRAM不要。まずは自分の用途がローカル実行なのかAPI利用なのかを明確にし、ローカル実行が必要なら「動かしたいモデルのパラメータ数」と「量子化レベル」から逆算してVRAM容量を決めるのが確実な選び方になる。

VRAMが小さくてもLoRA学習は可能で、6GBから動かせるツールの実測はAnima TrainFlow とはでまとめている。