「ローカルでAIを動かしたいのに、モデルを読み込んだ瞬間にエラーで落ちる」——その原因の大半は、VRAMの容量不足にある。VRAMとは、GPU(グラフィックボード)に搭載された専用メモリのことで、ローカルAI実行における最も重要なスペック要素だ。この記事では、VRAMの基本的な仕組みからAI用途で必要な容量の目安まで、具体的な数値とともに解説していく。
・VRAMはGPU専用のメモリで、PCのメインメモリ(RAM)とは物理的に別物
・ローカルでAIモデルを動かすにはVRAMにモデル全体を展開する必要があり、容量が足りなければ動作しない
・ローカルLLMなら12GB以上、画像生成なら8GB以上が実用的な目安。API利用(ChatGPT・Claude等)ならVRAMは不要
VRAMとは?通常のメモリ(RAM)との違い
VRAMとは、GPU(グラフィックボード)に搭載された専用メモリで、グラフィック処理やAI計算に使われるデータを一時的に格納する領域のこと。正式名称はVideo Random Access Memoryという。
PCに搭載されているメインメモリ(RAM)は、CPUが使う作業用メモリ。一方、VRAMはGPUだけがアクセスする専用領域で、物理的にもGPUのボード上に実装されている。両者はまったく別のハードウェアであり、「RAMが32GBあるからVRAMは十分」とはならない。
AI処理においてVRAMが決定的に重要な理由は、そのデータの載せ方にある。ローカルでAIモデルを動かす場合、モデルの重み(パラメータ)をVRAM上に丸ごと展開する必要がある。たとえば70億パラメータ(7B)のモデルなら、量子化の方式にもよるが約4〜6GBのVRAMを占有する。容量が足りなければ、そもそもモデルが読み込めない。
ここが初心者にとって最大の落とし穴になる。PC購入時にRAMだけを見てVRAMを確認しなかった結果、「スペックは十分なはずなのにAIが動かない」という事態に陥るケースは珍しくない。
AI用途でVRAMが重要な理由
AIモデルの推論時には、パラメータの重み・KVキャッシュ(過去の会話履歴を保持する領域)・アクティベーション(計算途中のデータ)がすべてVRAM上に展開される。この3要素の合計がVRAM容量を超えた瞬間、モデルは正常に動作しなくなる仕組みだ。
ただし、すべてのAI利用にVRAMが必要なわけではない。ChatGPT、Claude、GitHub Copilotなど、API経由で動作するAIツールはクラウド上のGPUを使って処理を行う。この場合、手元のPCにはGPUすら不要で、CPU・RAM・ネットワーク速度が快適さを左右する。VRAMが重要になるのは、Ollama、llama.cpp、Stable Diffusion、ComfyUIなどローカルでモデルを実行するケースに限られる。
VRAMが足りないとどうなるか
VRAM不足で起きる現象は主に2つ。1つ目がOOM(Out of Memory)エラーで、モデルの読み込み自体が失敗してプロセスが強制終了される。2つ目が、モデルの一部をシステムRAM側に退避させる「オフロード」処理。こちらは動作はするものの、速度が劇的に低下する。
当サイトの検証環境(RTX 5080 / i7-14700F / 96GB RAM)では、VRAM 16GBに収まる8Bクラスのモデルで131.5 tokens/sec(qwen3:8b)を記録した。一方、VRAM容量を超えてRAMオフロードが発生すると、速度が10分の1以下に落ちることも珍しくない。VRAMに載るか載らないかで、体感速度はまるで別物になる。
用途別・VRAMの必要容量の目安
AI用途で必要なVRAM容量は、「何を動かすか」によって大きく異なる。以下の表で用途別の目安を整理した。
| 用途 | 最低VRAM | 推奨VRAM | 代表的なツール |
|---|---|---|---|
| ローカルLLM(7B以下) | 6GB | 8GB以上 | Ollama、llama.cpp、LM Studio |
| ローカルLLM(13B〜14B) | 10GB | 12GB以上 | Ollama、llama.cpp、LM Studio |
| ローカルLLM(26B〜32B) | 16GB | 24GB以上 | Ollama、llama.cpp |
| 画像生成(SD 1.5) | 4GB | 8GB以上 | Stable Diffusion WebUI、ComfyUI |
| 画像生成(SDXL / Flux) | 8GB | 12GB以上 | ComfyUI、Forge |
| 動画生成 | 12GB | 16GB以上 | ComfyUI + Wan2.1等 |
| ファインチューニング | 16GB | 24GB以上 | Unsloth、Axolotl |
| API利用のみ | 不要 | 不要 | ChatGPT、Claude、Copilot |
ChatGPTやClaudeをブラウザから利用するだけなら、VRAMは一切気にしなくてよい。GPU非搭載のノートPCでも問題なく動作する。「自分の用途はAPI利用だけなのか、ローカル実行もしたいのか」をまず整理するのが第一歩。
ローカルLLMで必要なVRAMの目安
ローカルLLMの必要VRAM量は、モデルのパラメータ数と量子化レベルの2つで決まる。量子化とは、モデルの重みデータを低ビットに圧縮してVRAM消費を減らす技術のこと。
| モデルサイズ | Q4量子化 | Q8量子化 | FP16(非量子化) |
|---|---|---|---|
| 4B(Gemma 3 4Bなど) | 約3GB | 約5GB | 約8GB |
| 7〜8B(Llama 3.1 8Bなど) | 約5GB | 約9GB | 約16GB |
| 14B(Qwen 3 14Bなど) | 約9GB | 約15GB | 約28GB |
| 26B(Gemma 3 12Bなど) | 約16GB | 約28GB | 約52GB |
| 70B(Llama 3.1 70Bなど) | 約40GB | 約70GB | 約140GB |
この表が示す通り、量子化によって必要VRAM量は半分以下になる場合もある。Q4量子化であれば、VRAM 16GBのGPUでも26Bクラスのモデルをギリギリ動かせる計算だ。実際に海外のローカルLLMコミュニティでは、Gemma 3 12BをQ4量子化してVRAM 16GB環境で実用的に運用しているユーザーの報告がある。
さらに極端な例として、3970億パラメータ(397B)のQwen 3をQ2(2ビット)量子化し、VRAM 48GB環境で動作させたという報告もある。Q2は通常、品質劣化が大きいとされるが、超大型モデルでは劣化が相対的に小さくなるケースがあるようだ。ただし、これはあくまでハイエンド環境での話であり、一般的にはQ4以上の量子化を選ぶのが無難。
画像・動画生成で必要なVRAMの目安
画像生成AIのVRAM消費は、モデルの種類と生成解像度で変わる。SD 1.5(Stable Diffusion 1.5)なら512×512の標準解像度でVRAM 4GB程度から動作可能。一方、SDXLは1024×1024が標準で、最低でも8GB、快適に使うなら12GB以上が必要になる。
Fluxのような最新モデルはさらにVRAMを消費する傾向にある。動画生成(Wan2.1など)に至っては、フレーム数やスケール設定によっては16GB以上を要求されることも。Stable Diffusionの導入を検討している方は、最低でもVRAM 8GB、できれば12GB以上のGPUを用意しておくと安心だ。
VRAM以外にも注意すべきスペック
VRAMはローカルAI実行の最重要スペックだが、それだけ見ていれば万全というわけではない。見落とされがちなボトルネックが3つある。
1つ目はシステムRAM(メインメモリ)。 llama.cppなどの推論エンジンでは、コンテキスト長(一度に処理するテキスト量)を大きく設定すると、VRAMとは別にシステムRAMも大量に消費される。海外コミュニティでは、Gemmaモデルで長文プロンプトを処理した際にシステムRAMが枯渇し、プロセスが強制終了されたという報告が複数上がっている。ローカルLLMを快適に動かすなら、システムRAMは最低32GB、できれば64GB以上を確保したい。
2つ目はメモリ帯域幅。 VRAMの「容量」だけでなく「速度」もトークン生成速度に直結する。同じ16GBでも、GDDR6とGDDR6Xでは帯域幅が異なり、生成速度に差が出る。当サイトの検証では、RTX 5080(GDDR7・帯域幅960GB/s)でqwen3:8bが131.5 tokens/secを記録したのに対し、RTX 4070 Super(GDDR6X・帯域幅504GB/s)では同モデルで81.1 tokens/secだった。帯域幅が約2倍のGPUで、速度も約1.5倍の差が出ている。
3つ目はSSD容量。 ローカルAIモデルのファイルサイズは、7Bモデルで約4GB、70Bモデルで約40GBにもなる。複数モデルを使い分けるなら、SSDの空き容量は最低でも100GB以上確保しておくべき。
VRAM容量別・おすすめGPUの選び方
最後に、VRAM容量帯ごとの代表的なGPUと対応可能なAI用途を整理する。2026年4月時点の情報をもとにまとめた。
| VRAM容量 | 代表的なGPU | 対応できるAI用途 | 参考価格帯 |
|---|---|---|---|
| 8GB | RTX 4060、RTX 3060(12GB版) | SD 1.5、7B以下のLLM(Q4) | 4〜5万円 |
| 12GB | RTX 4060 Ti、RTX 4070 Super、RTX 3060 12GB | SDXL、Flux、14BまでのLLM(Q4) | 5〜9万円 |
| 16GB | RTX 5080、RTX 4060 Ti 16GB、RX 7800 XT | 動画生成、26BまでのLLM(Q4) | 7〜15万円 |
| 24GB | RTX 4090、RTX 3090 | 70B LLM(Q4・部分オフロード)、ファインチューニング | 20〜30万円 |
迷ったらVRAM 12GB以上のGPUを選べば、画像生成からローカルLLMまで主要なAI用途の大半をカバーできる。これが最もシンプルな結論だ。
ただし、AIモデルは年々大型化している。2025年時点では7〜14Bが主流だったローカルLLMも、2026年に入って26B〜32Bクラスが増えてきた。予算に余裕があるなら、16GB以上を選んでおくと数年先まで対応力が持続する。逆にAPI利用がメインでローカル実行の予定がなければ、VRAM容量を気にする必要はまったくない。
まとめ
VRAMはGPU専用のメモリであり、ローカルでAIを動かす際の最重要スペック。容量が足りなければモデルが読み込めず、不足したまま無理に動かしても実用的な速度は得られない。
用途別の目安を改めて整理すると、ローカルLLM(7〜14B)なら12GB以上、画像生成(SDXL / Flux)なら12GB以上、API利用のみならVRAM不要。まずは自分の用途がローカル実行なのかAPI利用なのかを明確にし、ローカル実行が必要なら「動かしたいモデルのパラメータ数」と「量子化レベル」から逆算してVRAM容量を決めるのが確実な選び方になる。
よくある質問(FAQ)
Q: VRAMとRAM(メインメモリ)は何が違う?
A: VRAMはGPU専用メモリ、RAMはCPU用メモリで、物理的に別のハードウェア。RAMがいくら多くても、VRAMの代わりにはならない。
Q: VRAMが足りない場合、増設はできる?
A: できない。VRAMはGPUのボード上にはんだ付けされており、後から追加や交換は不可能。VRAM容量を増やすにはGPU自体を買い替える必要がある。
Q: VRAM 8GBでローカルLLMは動かせる?
A: 7B以下のモデルをQ4量子化すれば動作する。ただし14B以上のモデルは厳しく、画像生成もSDXL以上は快適とは言えない。幅広いAI用途に対応するなら12GB以上を推奨。
当サイトはAmazonアソシエイト・プログラムの参加者です。Amazonのアソシエイトとして、当サイトは適格販売により収入を得ています。
おすすめパーツ 価格まとめ
| 製品名 | カテゴリ | スペック | 参考価格 |
|---|---|---|---|
| RTX 5080 | GPU・グラフィックボード | NVIDIA GeForce RTX 5080 16GB GDDR7 | ¥243,480〜 (kakaku.com最安値・2026/04/09) |
| RTX 4070 Super | GPU・グラフィックボード | NVIDIA GeForce RTX 4070 Super 12GB GDDR6X | ¥90,000〜 |
| RTX 4060 Ti | GPU・グラフィックボード | NVIDIA GeForce RTX 4060 Ti 8GB/16GB GDDR6 | ¥67,657〜 (kakaku.com最安値・2026/04/09) |

